hexo日记本

打算从纸质日记转到电子日记。

之前是一个月的日记放在一个 markdown 文件里面,每天一个一级标题。昨天突发奇想,为啥不用 Hexo 来搭建日记本呢?它本来就是用来写博客(blog 网络日志)的呀。

于是今天就来搭建 hexo 日记本

阅读更多

练习利用Scrapy爬取b站排行榜

开始学 python 的 Scrapy 框架了,参考书是崔庆才的《python3 网络爬虫开发实战》

跟着示例敲完之后,又试着按照一样的逻辑去爬取了 B 站排行榜的数据。

通过这个小项目学习使用 Scrapy 框架。

阅读更多

python爬虫学习笔记5爬虫类结构优化

打算全部以 cookie 来登陆,而不依赖于 session(因为听组长说 session 没 cookie 快,而且我想学些新东西而不是翻来覆去地在舒适区鼓捣)。弄了几天终于弄出来个代码不那么混乱的爬虫类了,更新一下博文来总结一下。代码在我 github 的 spider 库里面。

阅读更多

git恢复误提交的内容

在图书馆敲下最后几行代码,然后就着手机热点把爬虫代码 push 上去之后,突然想起来,我好像忘了把账号密码部分改成手动输入,现在 push 上去的是明文啊!掀桌!早知道就回宿舍上传了,说不准还能想起来。

阅读更多

手工归档编程项目

以前写代码建立的工程到处堆放,导致不能很好的找到以前的代码。虽然以前简单地划分了一下文件夹,但并没有投入太多精力去想如何分类。所以打算养成归档编程项目的好习惯,记录一下过程。也给读者们一个参考。

阅读更多

简易倒排索引

智能信息检索这门课程有个上机作业,题目是“实现倒排索引”。

用到了以前没有学的 STL 中的 vector。

经过两次课上写代码(3 小时)加上课后修 bug 的时间(晚上十点到十二点)总共 5 个小时,终于完成了一个简易的倒排索引。因为十点时已经太困,喝了柠檬茶提神结果现在睡不着,所以继续熬夜把博客写完吧。

阅读更多