9号彩票开户

关注微信  |  微博  |  腾讯微博  |  RSS订阅
读者QQ群③:168129342,投稿请发dashuju36@qq.com
我要投稿

Python数据采集(爬虫)浅谈

大数据

作者:yea yee

这一节看似好讲实则难以表述清楚,

讲不到的地方请别较真,也不要问爬虫哪家好?

我只说我知道的,怎么选择,兄弟们请随意。

1. WEB请求

第一段就难倒我了,非要讲述Web8种http请求方式,

无异于孔乙己知道茴字的N种写法(关键我也不会啊)。

先说说我学爬虫的过程,搬板凳,带瓜子,讲故事了:

每一个Python初学者大都绕不开爬虫的坑,

那年我玩CPC网赚,按键精灵、国产编程语言,大漠插件,靠谱助手,知道的举个手?

了解了Web前端的标签,网页像素级点击的方法,后台发送数据的技巧……

吾爱破解,小众软件社区跑多了觉得能破解、写软件看起来挺牛逼的,

偶然进了我乎,发现程序猿大牛真特么厉害,三条汪都还在,炒鸡偶像!

程序员们在撕逼PHP是宇内第一语言的时候,也顺便提到了人类未来Python,

人生苦短,我用Python,逼格当时就爆棚了,

没错,@ 廖雪峰,为人不识陈近南啊,照着他2.X教程撸3.X还是痛苦的,

之后他出了3.X,我就顺手爬了他的教程,做成的带标签的PDF,

现在还是吾爱破解的热帖(捂脸!)

如何爬技术博客专题,并将其作为带标签的PDF,请自行研究!

当然,那个时候@ 静觅丨崔庆才的系列博客也不能少。【操蛋,扯远了!】

大数据

2.WEB请求流程及器具

第一步,IE准备HttpWatch(来自易语言启蒙教程,嘿嘿);火狐浏览器安装FireBug插件;通杀软件Fiddler,连费德勒都解决不了的,祭出神器Shark

这个阶段,先了解一个网络请求是Get还是Post,请求协议头长什么样子,Post数据是什么格式、来源,响应都包含哪些,Html标签含义,JS的作用等等。挨个说起来就话长了。对了,你要抓APP,还的自备随身WIFI,设置FiddlerShark,无外乎获取canshu。

第二步,由于我坚定学习3.x,而Scrapy只支持2.7,所以我就从底层自己构建,包括后来的多线程,IP池,验证码,都一个个解决。所以我的建议是先不要用框架,等你熟悉了再用不迟。

网络请求不要纠结,用Requests:快速上手 – Requests 2.18.1 文档,别人的文档写的这么好了,我就不做搬运工,以后用实例慢慢解析。

第三步,GET请求成功(200)之后,相应就是Html源码,如何提取?Re正则肯定是万能的神器,但是结合BeautifulSoup你会觉得可以更简单,我个人的编程风格就是混搭风,英文、中文、pinyin混合使用,不拘泥于形式,以最短的路径实现功能,有点像大数据的梯度下降,越快越好。同样Beautiful Soup 4.2.0 文档也已经很完善,稍后用实例解析。

第四步,提取的数据保存,最开始自然是TXT格式,顺便熟悉以下TXT格式的读取,这个在任何时候都可能用到;然后是CSV,别以为import csv你就可以随便存了,里面还有不少坑,尤其是行头,嗯嗯,稍后实例解析。妹子高清图除外,图片是字节集,要用file保存。

题外话:我没有说POST是因为他除了用来登录以外,常常被用作各种论坛群发机,用作营销推广(留言板、站内信、顶帖),当然,账号被封也是家常便饭,所以本主不打算在我乎细说这个。呵呵,感兴趣的朋友可以看看这个:xchaoinfo/fuck-login

如果这个大牛的登陆源码你都系数看懂了,那你就可以自成一脉,专杀各种论坛、博客营销。如果想更深度的发扬这个体系,你还的搞定IP代理,验证码识别、自然语言NLP,路慢慢洗!

End.

转载请注明来自36大数据(36dsj.com):36大数据 » Python数据采集(爬虫)浅谈

36大数据   除非特别注明,本站所有文章均不代表本站观点。报道中出现的商标属于其合法持有人。请遵守理性,宽容,换位思考的原则。

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
友情链接:金凤凰彩票  北京赛车pk拾群  万彩会彩票  北京赛车pk拾玩法  博乐彩票  

免责声明: 本站资料及图片来源互联网文章,本网不承担任何由内容信息所引起的争议和法律责任。所有作品版权归原创作者所有,与本站立场无关,如用户分享不慎侵犯了您的权益,请联系我们告知,我们将做删除处理!