这是第三个大四综合实践——数据处理与分析。我们小组打算爬取各个招聘网站进行数据分析。
我负责其中的爬虫模块,教了两个队友怎么使用scrapy,打算我解决完爬取数据的一些难题之后,剩余的解析就交给他们。
我觉得解析数据只是苦力活,只要爬取到带有数据的html,剩下的就很轻松了。最后我选择使用selenium,这样就不用分析接口了,两个刚学爬虫的队友也能轻松搞定。
很快地搞定了前程无忧网和拉勾网之后,我在爬取智联招聘网遇到了很多问题。本文将这些问题以及解决方案记录下来,供读者参考。
这是第三个大四综合实践——数据处理与分析。我们小组打算爬取各个招聘网站进行数据分析。
我负责其中的爬虫模块,教了两个队友怎么使用scrapy,打算我解决完爬取数据的一些难题之后,剩余的解析就交给他们。
我觉得解析数据只是苦力活,只要爬取到带有数据的html,剩下的就很轻松了。最后我选择使用selenium,这样就不用分析接口了,两个刚学爬虫的队友也能轻松搞定。
很快地搞定了前程无忧网和拉勾网之后,我在爬取智联招聘网遇到了很多问题。本文将这些问题以及解决方案记录下来,供读者参考。
很久没写爬虫了,又重新开始使用 scrapy,之前学习的内容基本上都忘了,重新复习一遍,发现对它的理解又加深了一些。
本文将初级知识点简单梳理,实现了一个 HelloWorld 级别的 Scrapy 爬虫。
本文适用于 Scrapy 1.6.0,结合了自己的理解,可能理解有错误,欢迎在下面评论区指出。
不包含安装教程。
为了方便使用,将 BeautifulSoup 库常用的接口进行总结。
总结内容来源:《python3 网络爬虫开发实战》崔庆才
虽然获取到了微信公众号文章的链接,但没法获取到包含文章内容的 html。
花了一个小时来研究怎么获取页面,最后还是失败了。
爬取微信公众号的文章,之前一直觉得应该很难,我搞不定,但是尝试了一下发现,其实这和之前爬取的网站没有太大的区别。
本文记录了 2019 年 8 月 7 日爬取某一特定微信公众号的所有文章链接的方式,读者请注意时效性。
将登陆学校信息门户的部分专门封装成一个模块,需要的时候导入。
以前写的爬虫无法登录到学校的信息门户上去了,因为门户的新 JS 代码将表单的密码先加密了一次,再将其与别的表单数据 POST 过去。使用的是 AES 加密的 CBC 模式。
本文前半部分是我的 python 组长雁横给组员们讲解的信息门户的密码加密思路,然后由我总结成文,后半部分是我自己写的加密代码实现,使用 python 的PyCryptodome
库来进行加密。
在学习 scrapy 时,保存数据到文件的时候,发现一直出现“找不到这样的文件或文件夹”的错误,最后发现是因为 python 的相对路径。
开始学 python 的 Scrapy 框架了,参考书是崔庆才的《python3 网络爬虫开发实战》
跟着示例敲完之后,又试着按照一样的逻辑去爬取了 B 站排行榜的数据。
通过这个小项目学习使用 Scrapy 框架。
打算全部以 cookie 来登陆,而不依赖于 session(因为听组长说 session 没 cookie 快,而且我想学些新东西而不是翻来覆去地在舒适区鼓捣)。弄了几天终于弄出来个代码不那么混乱的爬虫类了,更新一下博文来总结一下。代码在我 github 的 spider 库里面。