标签: scrapy - 编程技术笔记

scrapy+selenium爬取智联招聘

2020-11-22发表2020-11-22更新项目总结23 分钟读完 (大约3416个字)

scrapy+selenium爬取智联招聘

这是第三个大四综合实践——数据处理与分析。我们小组打算爬取各个招聘网站进行数据分析。

我负责其中的爬虫模块，教了两个队友怎么使用scrapy，打算我解决完爬取数据的一些难题之后，剩余的解析就交给他们。

我觉得解析数据只是苦力活，只要爬取到带有数据的html，剩下的就很轻松了。最后我选择使用selenium，这样就不用分析接口了，两个刚学爬虫的队友也能轻松搞定。

很快地搞定了前程无忧网和拉勾网之后，我在爬取智联招聘网遇到了很多问题。本文将这些问题以及解决方案记录下来，供读者参考。

2020-02-18发表2020-02-18更新学习笔记16 分钟读完 (大约2331个字)

Scrapy爬虫框架（1）一个简单的可用的爬虫

很久没写爬虫了，又重新开始使用 scrapy，之前学习的内容基本上都忘了，重新复习一遍，发现对它的理解又加深了一些。

本文将初级知识点简单梳理，实现了一个 HelloWorld 级别的 Scrapy 爬虫。

本文适用于 Scrapy 1.6.0，结合了自己的理解，可能理解有错误，欢迎在下面评论区指出。

不包含安装教程。

2019-06-27发表2019-06-27更新解决方案5 分钟读完 (大约796个字)

python相对路径是相对于哪里

在学习 scrapy 时，保存数据到文件的时候，发现一直出现“找不到这样的文件或文件夹”的错误，最后发现是因为 python 的相对路径。

2019-06-25发表2019-06-25更新项目总结5 分钟读完 (大约822个字)

练习利用Scrapy爬取b站排行榜

开始学 python 的 Scrapy 框架了，参考书是崔庆才的《python3 网络爬虫开发实战》

跟着示例敲完之后，又试着按照一样的逻辑去爬取了 B 站排行榜的数据。

通过这个小项目学习使用 Scrapy 框架。