我们能够使用 urllib 向网页请求并获取其网页数据。但是抓取信息数据量比较大,我们可能需要其中一小部分数据。对付刚才的难题,就需要正则表达式出马了。正则表达式能帮助我们匹配过滤到我们需要的数据,但它学习起来非常枯燥无味。你可能会说,我还没有开始想学习正则表达式,你就来打击我? 莫慌!层层递进地学习,一步一个脚印地学习,很快就会学会了。对于爬虫,我觉得学……继续阅读 »
猴哥
5年前 (2017-06-30) 286浏览 0评论
0个赞
本文是爬虫系列文章的第一篇,主要讲解 Python 3 中的 urllib 库的用法。urllib 是 Python 标准库中用于网络请求的库。该库有四个模块,分别是urllib.request,urllib.error,urllib.parse,urllib.robotparser。其中urllib.request,urllib.error两个库在爬虫程序……继续阅读 »
猴哥
5年前 (2017-06-26) 275浏览 0评论
1个赞
近来在阅读 《轻量级 Django》,虽然还没有读完,但我已经收益颇多。我不得不称赞 Django 框架的开发人员,他们把 Web 开发降低门槛。Django 让我从对 Web 开发是一无所知到现在可以编写小型 web 应用,这很舒服。
Django 已经算是入门,所以自己把学习目标转到爬虫。自己接下来会利用三个月的时间来专攻 Python 爬虫。这几天,我……继续阅读 »
猴哥
5年前 (2017-06-24) 292浏览 0评论
1个赞