今天下午又看了看 deepin 的 CTO 王勇离职的帖子,然后就去简书看了人家的心路历程,突然萌发了个想法:互联网企业总有兴衰,网络上的东西保质期都不长,经常可以看到论坛中 7,8 年的链接 404 了;前几天“荒野无灯”的 github 也被删了,所以觉得自己数据真的应该自己掌握。于是想把一些很不错的文章爬下来,存到自己的本地硬盘里,视频太大了占硬盘太多就算了。
目前想到了一点需要的技术:
- Python 的网络爬虫,针对不同网站爬不同文章。
- 数据库的支持,后期文章多了难免检索困难。
- 搞一个独立 ip,弄个小网站方便自己随时看之类的。
- 大概还需要一个检索能力比较好的开源搜索引擎?
还请 v 友评价一下这个想法,如果可行的话,还欠缺什么技术。现在本科大二,时间充足,啥都能学。