当我们的爬虫程序已经完成使命,帮我们抓取大量的数据。你内心也许会空落落的。或许你会疑惑,自己抓取这些数据有啥用?如果要拿去分析,那要怎么分析呢?
说到数据分析,Python 完全能够胜任这方面的工作。Python 究竟如何在数据分析领域做到游刃有余?因为它有“四板斧”,分别是Matplotlib、NumPy、SciPy/Pandas。Matplotlib……继续阅读 »
猴哥
5年前 (2017-10-31) 262浏览 0评论
0个赞
今天猴哥给大家说说爬虫与反爬虫的博弈。
1.前言
近来这两三个月,我陆续将自己学到的爬虫技术分享出来。以标准网络库 urllib 的用法起笔,接着介绍各种内容提供工具,再到后续的 scrapy 爬虫框架系列。我的爬虫分享之旅已经接近尾声了。本文就来聊聊如何防止爬虫被 ban 以及如何限制爬虫。
2.介绍
我们编写的爬虫在爬取网站的时候,要遵守 robots ……继续阅读 »
猴哥
5年前 (2017-10-09) 310浏览 0评论
0个赞
本文是 Scrapy 爬虫系列的最后一篇文章。主要讲述如何将我们编写的爬虫程序部署到生产环境中。我们使用由 scrapy 官方提供的爬虫管理工具 scrapyd 来部署爬虫程序。
1.为什么使用 scrapyd?
一是它由 scrapy 官方提供的,二是我们使用它可以非常方便地运用 JSON API来部署爬虫、控制爬虫以及查看运行日志。
2.使用 scrap……继续阅读 »
猴哥
5年前 (2017-10-02) 237浏览 0评论
0个赞