• 欢迎访问极客猴,分享 Python 入门,网络爬虫,数据分析,赚钱思维相关的技术与思维QQ群
  • 本站点文章首发于微信公众号【极客猴】,欢迎关注,第一时间接受文章推送~
  • 如果您觉得本站非常有看点,那么赶紧使用 Ctrl+D 收藏极客猴吧

标签:爬虫

Python 网络爬虫

170 行代码爬取《白蛇:缘起》短评数据

170 行代码爬取《白蛇:缘起》短评数据
在我的童年记忆中,电视台播放的动画片大多都是从日本、美国引进的。很多动画片算是银幕上的经典,例如:《变形金刚》系列、《猛兽侠》、《蜘蛛侠》、《七龙珠》、《名侦探柯南》、《灌篮高手》、《数码宝贝》等。但是国产的精品动画篇确认寥寥无几,可能是当时我国动漫产业还处在起步阶段。一晃几十年过去了,现在的国产动漫算是强势崛起,这也涌现出《斗破苍穹》、《秦时明月》、《天……继续阅读 »

猴哥 2年前 (2019-01-17) 21浏览 0评论0个赞

Python 网络爬虫

100 行代码爬取全国所有必胜客餐厅信息

100 行代码爬取全国所有必胜客餐厅信息
当我刚接触 Python 时,我已经被 Python 深深所吸引。Python 吸引我的地方不仅仅能用其编写网络爬虫,而且能用于数据分析。我能将大量的数据中以图形化方式呈现出来,更加直观的解读数据。数据分析的前提是有数据可分析。如果没有数据怎么办?一是可以去一些数据网站下载相关的数据,不过数据内容可能不是自己想要的。二是自己爬取一些网站数据。今天,我就爬……继续阅读 »

猴哥 2年前 (2018-11-13) 21浏览 0评论1个赞

Python 网络爬虫

详解 Scrapy 中间键的用法

详解 Scrapy 中间键的用法
Scrapy 爬虫框架的出现,确实能让我们更加专注于数据抓取。同时,我们借助 Scrapy 框架来爬取整个站点数据也显得更加容易。虽然 Scarpy 负责 url 调度、网络请求、页面数据下载等工作,但是它的扩展性很高,其中就支持自定义中间件(Middleware)。本文主要讲解中间件(Middleware)的用法。1.什么是中间件中间件的运用比较广泛,……继续阅读 »

猴哥 2年前 (2018-10-23) 14浏览 0评论0个赞

Python 网络爬虫

带你了解代理 IP 那些事

带你了解代理 IP 那些事
因为 Python 语法简介以及强大的第三方库,所以我们使用它来制作网络爬虫程序。网络爬虫的用途是进行数据采集,也就是将互联网中的数据采集过来。在爬取某些网站时,我们经常会设置代理 IP 来避免爬虫程序被封。我们获取代理 IP 地址方式通常提取国内的知名 IP 代理商(如西刺代理,快代理,无忧代理等)的免费代理。这些代理商一般都会提供透明代理,匿名代理,高……继续阅读 »

猴哥 2年前 (2018-09-10) 14浏览 0评论0个赞

Python 网络爬虫

盘点一些网站的反爬虫机制

盘点一些网站的反爬虫机制
因为 Python 语法简介以及强大的第三方库,所以我们使用它来制作网络爬虫程序。网络爬虫的用途是进行数据采集,也就是将互联网中的数据采集过来。网络爬虫的难点其实并不在于爬虫本身。而是网站方为了避免数据被爬取,增加了各种各样的反爬虫措施。如果想要继续从网站爬取数据就必须绕过这些措施。因此,网络爬虫的难点在于反爬的攻克和处理。那么本文主要介绍一些网站的反爬虫……继续阅读 »

猴哥 2年前 (2018-08-21) 22浏览 0评论0个赞

Python 网络爬虫

想提高爬虫效率?aiohttp 了解下

想提高爬虫效率?aiohttp 了解下
对于爬虫程序,我们往往会很关注其爬虫效率。影响爬虫效率有几个因素有,是否使用多线程,I/O 操作,是否同步执行等。其中 I/O 操作、同步执行是最影响爬虫效率的。众所周知,Requests 库一个优秀的 HTTP 库,通过它可以非常简单地发起 HTTP 请求。不过,这个库所执行的网络请求都是同步。当爬虫程序进程获得 CPU 的时间片时,如果程序在进行 I/……继续阅读 »

猴哥 2年前 (2018-08-03) 16浏览 0评论0个赞

Python 网络爬虫

分享一个爬取网站的小技巧

分享一个爬取网站的小技巧
有时候,我们很想爬取一个网站的数据。如果 PC 端的网页的反爬机制太强,我们可以换个思路。现在很多网站为了满足手机浏览器能正常访问的需求,都会推出手机版的网页。PC 端抓取数据有难度,我们可以从手机端入手。你也许听说过,抓取手机 App 端数据就需要搭建手机抓包环境。那么我们就要屁颠屁颠去抓包搭建?哈哈,显然不用。我给大家分享一个小技巧,可以节省搭建环境的……继续阅读 »

猴哥 2年前 (2018-07-17) 14浏览 0评论0个赞

Python 网络爬虫

这些抓包工具,你值得拥有

这些抓包工具,你值得拥有
如今的时代是互联网时代,互联网已经在我们的生活如影随形。可以说我们无时无刻在跟互联网打交道。而在工作,我们可能会因开发调试、测试、排查网络故障等原因,需要对网路数据包进行抓取、拦截以解析。因此,本文主要内容是推荐几款不错的抓包工具。1.FiddlerFiddler 是一个使用 C# 编写的 http 抓包工具。它使用灵活,功能强大,支持众多的 http ……继续阅读 »

猴哥 2年前 (2018-07-02) 13浏览 0评论0个赞

认知

总结是成长的秘方

总结是成长的秘方
时光荏苒,2018 年已经过去半年。你年初制定新年计划,不知现在完成的进度是多少了?不管怎样,应该好好总结下。学习,生活,工作就像一场航行。我们这艘孤零零的小船在茫茫大海中飘荡着。或许我们知道此次航行的目的地。但是航程会有各种突发状况。这会让我们不知不觉偏离航线,进而影响到达目的地的时间。这时就需要导航工具,而总结就是这一工具。善于总结是一件好事。在总结……继续阅读 »

猴哥 2年前 (2018-06-26) 23浏览 0评论1个赞

Python 网络爬虫

爬取《Five Hundred Miles》在网易云音乐的所有评论

爬取《Five Hundred Miles》在网易云音乐的所有评论
在使用 Ajax 技术加载数据的网站中, JavaScript 发起的 HTTP 请求通常需要带上参数,而且参数的值都是经过加密的。如果我们想利用网站的 REST API 来爬取数据,就必须知道其使用的加密方式。破解过程需要抓包,阅读并分析网站的 js 代码。这整个过程可能会花费一天甚至更长的时间。问:那么是否有办法绕过这机制,直接获取网站数据?答:有……继续阅读 »

猴哥 3年前 (2018-06-12) 22浏览 0评论0个赞