想要备份一个国内小众圈子的 Wiki ,害怕哪天整个站都被屏蔽了
1
clockwise9 2023-04-16 14:39:53 +08:00 via Android
根据 https://m.mediawiki.org/wiki/Web_scraping_access ,url 加参数 action=raw 就可以获得 wikitext 内容
|
2
baobao1270 OP @clockwise9 不是很想自己写爬虫,最好有能够有已经有的开源程序
|
3
LxnChan 2023-04-16 14:55:39 +08:00
https://lxnchan.cn/wget-all-grab.html
刚才我用我自己的 mediawiki 试了一下,wget 整站抓取基本是可行的,但是抓下来的东西比较乱而且只能是静态页面(包括在页面内跳转也会失效)。不过可以参考#1 的思路,在抓取时每个 url 后加 raw 参数然后自己本地搭一个把 raw 导入数据库应该也可行。 |
4
vazo 2023-04-16 15:14:59 +08:00
可以试试 HTTrack
http://www.httrack.com/page/2/ |
5
winterx 2023-04-16 17:13:09 +08:00
特殊:导出页面
|