当我们的爬虫程序已经完成使命,帮我们抓取大量的数据。你内心也许会空落落的。或许你会疑惑,自己抓取这些数据有啥用?如果要拿去分析,那要怎么分析呢?说到数据分析,Python 完全能够胜任这方面的工作。Python 究竟如何在数据分析领域做到游刃有余?因为它有“四板斧”,分别是Matplotlib、NumPy、SciPy/Pandas。Matplotlib……继续阅读 » 猴哥 3年前 (2017-10-31) 33浏览 0评论0个赞
今天猴哥给大家说说爬虫与反爬虫的博弈。1.前言近来这两三个月,我陆续将自己学到的爬虫技术分享出来。以标准网络库 urllib 的用法起笔,接着介绍各种内容提供工具,再到后续的 scrapy 爬虫框架系列。我的爬虫分享之旅已经接近尾声了。本文就来聊聊如何防止爬虫被 ban 以及如何限制爬虫。2.介绍我们编写的爬虫在爬取网站的时候,要遵守 robots ……继续阅读 » 猴哥 3年前 (2017-10-09) 63浏览 0评论0个赞
本文是 Scrapy 爬虫系列的最后一篇文章。主要讲述如何将我们编写的爬虫程序部署到生产环境中。我们使用由 scrapy 官方提供的爬虫管理工具 scrapyd 来部署爬虫程序。1.为什么使用 scrapyd?一是它由 scrapy 官方提供的,二是我们使用它可以非常方便地运用 JSON API来部署爬虫、控制爬虫以及查看运行日志。2.使用 scrap……继续阅读 » 猴哥 3年前 (2017-10-02) 28浏览 0评论0个赞