如果你把上篇多线程和多进程的文章搞定了,那么要恭喜你了 。你编写爬虫的能力上了一个崭新的台阶。不过,我们还不能沾沾自喜,因为任重而道远。那么接下来就关注下本文的主要内容。本文主要介绍 urllib 库的代替品 —— Requests。
1.Requests 简介
引用 Requests 官网的说明:
Requests is the only Non-GMO……继续阅读 »
猴哥
5年前 (2017-07-26) 217浏览 0评论
0个赞
前言:为什么有人说 Python 的多线程是鸡肋,不是真正意义上的多线程?
看到这里,也许你会疑惑。这很正常,所以让我们带着问题来阅读本文章吧。
问题:
1、Python 多线程为什么耗时更长?
2、为什么在 Python 里面推荐使用多进程而不是多线程?
1.基础知识
现在的 PC 都是多核的,使用多线程能充分利用 CPU 来提供程序的执行效率。
1-……继续阅读 »
猴哥
5年前 (2017-07-20) 288浏览 0评论
0个赞
我们已经学习 urllib、re、BeautifulSoup 这三个库的用法。但只是停留在理论层面上,还需实践来检验学习成果。因此,本文主要讲解如何利用我们刚才的几个库去实战。
1.确定爬取目标
任何网站皆可爬取,就看你要不要爬取而已。本次选取的爬取目标是当当网,爬取内容是以 Python 为关键字搜索出来的页面中所有书籍的信息。具体如下图所示:
本次爬取……继续阅读 »
猴哥
5年前 (2017-07-18) 314浏览 0评论
1个赞
上篇文章只是简单讲述正则表达式如何读懂以及 re 常见的函数的用法。我们可能读懂别人的正则表达式,但是要自己写起正则表达式的话,可能会陷入如何写的困境。正则表达式写起来费劲又出错率高,那么有没有替代方案呢?俗话说得好,条条道路通罗马。目前还两种代替其的办法,一种是使用 Xpath 神器,另一种就是本文要讲的 BeautifulSoup。
1.Beautifu……继续阅读 »
猴哥
5年前 (2017-07-15) 261浏览 0评论
0个赞