scrapy+selenium爬取智联招聘

scrapy+selenium爬取智联招聘

这是第三个大四综合实践——数据处理与分析。我们小组打算爬取各个招聘网站进行数据分析。

我负责其中的爬虫模块,教了两个队友怎么使用scrapy,打算我解决完爬取数据的一些难题之后,剩余的解析就交给他们。

我觉得解析数据只是苦力活,只要爬取到带有数据的html,剩下的就很轻松了。最后我选择使用selenium,这样就不用分析接口了,两个刚学爬虫的队友也能轻松搞定。

很快地搞定了前程无忧网和拉勾网之后,我在爬取智联招聘网遇到了很多问题。本文将这些问题以及解决方案记录下来,供读者参考。

阅读更多
vscode中python自定义包的模块如何导入其子包模块

vscode中python自定义包的模块如何导入其子包模块

问题描述

如图所示,对于python,有一个自定义包parent,它里面还有一个子包child,当你在parent.module1import child.module2时,vscode会给你报错,说找不到这个包。

当你单独运行module1.py的时候,可以正常运行,但是当你在parent包外层的main.pyimport parent.module1时,就会报错。

阅读更多
记第三次博客切换主题以及主题优化

记第三次博客切换主题以及主题优化

2019 年 2 月 28 日,第一次换主题,从shana(夏娜)换成了NexT,当时换主题的原因是:虽然二次元主题蛮好看的我挺喜欢,但是由于小众,功能缺乏,而 NexT 作为一个使用人数非常多的主题,功能非常齐全,所以决定换主题。

2020 年 4 月 5 日,第二次换主题,从NexT换成了Matery,原因是这个主题可以放很多图,并且我需要的功能也都有。

2020年10月11日,第三次换主题,也就是这次,换成了Icarus(伊卡洛斯)。原因是,Matery的归档页面不能满足我回看历史文章的需求,以及我觉得整个页面太花哨了,封面图片也不是很好弄,所以还是换成图片量中等的Icarus。

阅读更多
【项目复盘】网络软件开发综合实践

【毕业实习总结】(2)mybatis框架的基本使用

前言

大三暑假有个毕业实习,是企业的人来我们学校带我们做项目,为期三周。

前半部分是教我们一些框架的基本使用,后面几天就是组成小组利用前面学习的知识开发一个商城项目。感觉和课设其实没有差的太多。

学习到的框架有 mybatis、springmvc、spring、springboot、shiro、mybatis-plus,还在一开始学习了如何建立 maven 项目。

2020 年 7 月 15 日,我们小组完成了答辩。在之前因为要学习框架、做项目,甚至中间夹杂着几场考试,所以抽不出空来写博客,现在结束了,我现在通过 git 提交记录以及幕布学习笔记、工作日报等记录来尝试还原这一次经历以及学习到的技术。

一开始想的是本系列先整理学习笔记,最后对本次项目进行总结。不过碍于时间不足,可能会直接将以前的旧项目改为 springboot 架构,实习最终完成的商城项目就不进行分析了,项目开源链接:SpringBootMall

笔者也是刚刚才学习这些东西,所以如果有问题可以给我留言。

阅读更多

【毕业实习总结】(1)maven环境配置

前言

大三暑假有个毕业实习,是企业的人来我们学校带我们做项目,为期三周。

前半部分是教我们一些框架的基本使用,后面几天就是组成小组利用前面学习的知识开发一个商城项目。感觉和课设其实没有差的太多。

学习到的框架有 mybatis、springmvc、spring、springboot、shiro、mybatis-plus,还在一开始学习了如何建立 maven 项目。

2020 年 7 月 15 日,我们小组完成了答辩。在之前因为要学习框架、做项目,甚至中间夹杂着几场考试,所以抽不出空来写博客,现在结束了,我现在通过 git 提交记录以及幕布学习笔记、工作日报等记录来尝试还原这一次经历以及学习到的技术。

本系列将会先整理学习笔记,最后对本次项目进行总结。

笔者也是刚刚才学习这些东西,所以如果有问题可以给我留言。

阅读更多
【自我管理系统】电脑文件管理系统v200417

站点引导

前言

这是本博客站点的文章目录索引,如果你想在本站逛一逛,可以从这里开始。

如果想要搜索特定内容,请结合标签、分类和站内搜索功能。部分博客有对应的 B 站视频,以及 github 库,详见各自文章的开头传送门。

此目录并非包含本站所有文章,比如日志总结之类的不一定会放到目录。

如果觉得本站访问速度慢,可以在【友情链接】中找到托管在 gitee 的本站链接,速度会快很多

阅读更多