sqlite全网爬取6500大抵就资本|看看哪家基金最强

.理财是只十分重大的艺,无论是高高在上的成功人士还说群众老百姓还必要掌握的技能,俗话说”人非理财,财不理你”。理财的点子发生多,我个人于欣赏打基金,而资产又出特别分好多种:股票型,混合型,债券型,QDII还有个别基金,指数基金,货币基金,到底哪家最强的~~

咱们码农是凭手艺吃饭的,不纵是多少解析为,简单温馨下手写个次,分析一下.通的情我会分几首来写,今天凡思路篇,这毕竟一个微的归纳项目,前面说了这么多Python的基础知识,还起多少解析的始末,来实战一下吧

* *

全网爬取思路

1.得具有资金的链接

俺们打资本首页,爬来装有资金的号码,基金名字和基金的url,共6500几近值

其增长的这样,如下面的截图:

sqlite 1

sqlite 2

一起6527止资本,不管她是啊品种的成本,统统爬下,管他黑猫白猫,能赚取不亏的资本就是好资产,哈哈

* *

2.分析每个基金的数据

单独写一个类,去分析每一个资金网页,我们要领到以下资产的关键消息

濒临1个月之宽度

临到3单月的宽窄

凑近6只月之幅度

身临其境1年的肥瘦

走近3年之宽

建的话的大幅度

比如:

sqlite 3

* *

sqlite 4

3.数的仓储

多少获得之后,我们是毫无疑问要存储的,放在内存里面到底非是遥远的事
。存储可以有文件中,存为csv或者json格式 ,这有限种格式比较常用.

要么也可形容副数据库了,我们得用屌丝专用的sqlite3因为她就一个文书,比较简单,或者高大上的关系数据库MySQL(但是其填补加表的时光有板),
MangoDb 这个比较灵活,反正写副数据库的话语比较好扩大应用,各有所长~~

 

4.数额的剖析

a).对于积极派

希知晓:累计成立涨幅最为特别之财力

盼知道:累计1年小幅最为要命之工本

企了解:累计6month涨幅最为老之资产

欲知晓:累计3month升幅最为酷之本金

接下来抱单交集,看看发生没有产生全能王

b).对于稳健派

咱们的投资是以稳健为主,稳子当头,涨多涨少不要紧,关键是要水涨船高,而且稳那咱们拿建以来,3年来,1年来,6month,3month,1month
看看有没有发出备涨的,没有亏过之

本我们还可以分析一下另维度的多少,比如建立的时,几星级好评的血本等等~

代码的方案和注意事项

代码的设计注意事项,因为是全网爬取6500几近特本,肯定要因此多线程或者爬虫框架去搞定,我当下能体悟的凡之类几碰方案:

1.方案1

a).先爬起资产首页,获得有的本钱的url信息

b).然后将6500单纯基金放上队中,用多线程取分别处理每一个本网页的多寡

c).然后拿有获得各只资本涨幅,存在内存里面,当有着的资金网页全部还处理了事后,把数量并写如csv文件

方案1:很引人注目有一个短,就是待等到有的成本就才会刻画副,假如6500大多只有资本,我处理及6400多之早晚,忽然出现异常或者断网了,怎么惩罚,估计那时想遇到墙了。这个上你拥有的数都没起存入csv文件,那尔前面CPU呼呼的转,卖力的拼命爬虫,结果日整套且白费了

 

2.方案2

a).也是事先爬来成本首页,获得有的工本的url信息

b).然后将6500单单本放上队中,用一个类似去分别处理每一个财力网页的数额

c).然后这看似是继续Thread,也是直多线程处理是班之中的数目,注意当解析了一个网页之后,立刻将数据勾勒副csv文件。这样做的裨益,就是免会见因老要断网,导致数据内容尚未保存

方案2:还是会有题目,就是线程之间对共享文件之拍卖问题

 

3.方案3

圈起好像方案2凡是正确的,但是每个线程都当存同一个csv文件,多线程直接处理一个文件,肯定会生出题目,更何况我们发6500多蹩脚反复读写,所以我们用针对文件读写的地方,加锁来处理,这样于安全

结论:

哼全网爬取6500本钱的思绪篇就称到这边,这个事例会因此到Python的基本知识,爬虫技术,多线程处理,线程间的吊,文件读写,数据解析Pandas的艺等等。若发生什么问题,也可以留言讨论,好闲话少说,抓紧时间码代码吧~~

习过程被碰到什么问题要么想取得学习资源的语,欢迎加入学习交流群
626062078,我们一块学Python!

 

网站地图xml地图