练习利用Scrapy爬取b站排行榜
开始学 python 的 Scrapy 框架了,参考书是崔庆才的《python3 网络爬虫开发实战》
跟着示例敲完之后,又试着按照一样的逻辑去爬取了 B 站排行榜的数据。
通过这个小项目学习使用 Scrapy 框架。
开始学 python 的 Scrapy 框架了,参考书是崔庆才的《python3 网络爬虫开发实战》
跟着示例敲完之后,又试着按照一样的逻辑去爬取了 B 站排行榜的数据。
通过这个小项目学习使用 Scrapy 框架。
这学期的 java 课设弄完了,写个博客总结一下。
打算全部以 cookie 来登陆,而不依赖于 session(因为听组长说 session 没 cookie 快,而且我想学些新东西而不是翻来覆去地在舒适区鼓捣)。弄了几天终于弄出来个代码不那么混乱的爬虫类了,更新一下博文来总结一下。代码在我 github 的 spider 库里面。
前面写的代码虽然完成了爬取的功能,但是过于凌乱,于是打算重构一遍。首先从登陆开始
在图书馆敲下最后几行代码,然后就着手机热点把爬虫代码 push 上去之后,突然想起来,我好像忘了把账号密码部分改成手动输入,现在 push 上去的是明文啊!掀桌!早知道就回宿舍上传了,说不准还能想起来。
以前写代码建立的工程到处堆放,导致不能很好的找到以前的代码。虽然以前简单地划分了一下文件夹,但并没有投入太多精力去想如何分类。所以打算养成归档编程项目的好习惯,记录一下过程。也给读者们一个参考。
智能信息检索这门课程有个上机作业,题目是“实现倒排索引”。
用到了以前没有学的 STL 中的 vector。
经过两次课上写代码(3 小时)加上课后修 bug 的时间(晚上十点到十二点)总共 5 个小时,终于完成了一个简易的倒排索引。因为十点时已经太困,喝了柠檬茶提神结果现在睡不着,所以继续熬夜把博客写完吧。
昨天在上完课回宿舍的路上,楠哥提起了一道他在某个基础知识竞赛上遇到的题目,我觉得解法很巧妙,分享记录一下。
有 1024 瓶水,其中一瓶有毒,你有 10 只老鼠用于试毒(这里是题目假设,所以别下不了手让老鼠试毒 OVO),老鼠如果喝到毒药,会在一星期后死亡。你有一周时间,如何找出这一瓶毒药?
为了加入学校里面一个技术小组,我接受了写一个爬取学校网站通知公告的任务。这个任务比以前写的爬虫更难的地方在于,需要模拟登录才能获得页面,以及将得到的数据存入数据库。
本文按照日期来记录我完成任务的过程,然后再整理一遍全部代码。读者可以通过侧栏目录跳转阅读。不介绍库的安装。
传送门:爬虫学习笔记 1