练习利用Scrapy爬取b站排行榜

开始学 python 的 Scrapy 框架了,参考书是崔庆才的《python3 网络爬虫开发实战》

跟着示例敲完之后,又试着按照一样的逻辑去爬取了 B 站排行榜的数据。

通过这个小项目学习使用 Scrapy 框架。

阅读更多

python爬虫学习笔记5爬虫类结构优化

打算全部以 cookie 来登陆,而不依赖于 session(因为听组长说 session 没 cookie 快,而且我想学些新东西而不是翻来覆去地在舒适区鼓捣)。弄了几天终于弄出来个代码不那么混乱的爬虫类了,更新一下博文来总结一下。代码在我 github 的 spider 库里面。

阅读更多

git恢复误提交的内容

在图书馆敲下最后几行代码,然后就着手机热点把爬虫代码 push 上去之后,突然想起来,我好像忘了把账号密码部分改成手动输入,现在 push 上去的是明文啊!掀桌!早知道就回宿舍上传了,说不准还能想起来。

阅读更多

手工归档编程项目

以前写代码建立的工程到处堆放,导致不能很好的找到以前的代码。虽然以前简单地划分了一下文件夹,但并没有投入太多精力去想如何分类。所以打算养成归档编程项目的好习惯,记录一下过程。也给读者们一个参考。

阅读更多

简易倒排索引

智能信息检索这门课程有个上机作业,题目是“实现倒排索引”。

用到了以前没有学的 STL 中的 vector。

经过两次课上写代码(3 小时)加上课后修 bug 的时间(晚上十点到十二点)总共 5 个小时,终于完成了一个简易的倒排索引。因为十点时已经太困,喝了柠檬茶提神结果现在睡不着,所以继续熬夜把博客写完吧。

阅读更多

老鼠和毒药问题

昨天在上完课回宿舍的路上,楠哥提起了一道他在某个基础知识竞赛上遇到的题目,我觉得解法很巧妙,分享记录一下。

题目

有 1024 瓶水,其中一瓶有毒,你有 10 只老鼠用于试毒(这里是题目假设,所以别下不了手让老鼠试毒 OVO),老鼠如果喝到毒药,会在一星期后死亡。你有一周时间,如何找出这一瓶毒药?

阅读更多

python爬虫学习笔记2模拟登录与数据库

为了加入学校里面一个技术小组,我接受了写一个爬取学校网站通知公告的任务。这个任务比以前写的爬虫更难的地方在于,需要模拟登录才能获得页面,以及将得到的数据存入数据库。

本文按照日期来记录我完成任务的过程,然后再整理一遍全部代码。读者可以通过侧栏目录跳转阅读。不介绍库的安装。

传送门:爬虫学习笔记 1

阅读更多