大家用 python 都做过什么有趣的爬虫吗?分享分享呗!
2
bdbai 2015-09-10 19:43:55 +08:00 via iPhone
爱鼠绘漫画 PHP 和 C#(跑
|
3
anying 2015-09-10 19:45:07 +08:00 1
然而好多都是用来爬妹子图的
|
4
uuspider 2015-09-10 19:57:22 +08:00
这是从知乎上看来的题目吧,知乎的答案还是比较丰富的。
|
5
tooweakchen OP @anying 我就是
|
6
weifengzi2009 2015-09-10 20:49:56 +08:00 1
爬过学校的课表,排课用
|
7
tooweakchen OP @weifengzi2009 有源码看看不
|
8
giskard 2015-09-10 21:18:59 +08:00
豆瓣租房小组,爬最新帖子,不算有趣吧,但还有点用。
|
9
masol 2015-09-10 21:49:58 +08:00
爬过一个网站的所有图片。。
|
10
qw7692336 2015-09-10 21:50:30 +08:00 via Android
|
11
shoumu 2015-09-10 21:57:53 +08:00
这里的很多人都喜欢爬妹子图
|
12
xunyu 2015-09-10 22:07:12 +08:00 via Android
爬猎聘, linkedin
|
13
weifengzi2009 2015-09-11 00:23:14 +08:00
|
14
coldear 2015-09-11 01:25:26 +08:00
爬过网络连载小说转成 txt 在 kindle 看。。
爬过一个盗版技术书籍的网站。。 |
15
dai269619118 2015-09-11 09:02:55 +08:00
http://jinri.info 都是爬来的信息
|
16
leyle 2015-09-11 09:05:14 +08:00 via Android
喜欢看 1024 的技术区,但是没法按发帖时间排序,写了个抓取帖子回来再按发帖时间排。
|
17
takashiki 2015-09-11 09:23:30 +08:00
豆瓣爬日剧动画啥的,然后按评分排序选择性补番
|
18
paw 2015-09-11 09:59:53 +08:00
爬漫画,按卷爬好打包成 zip 放在本地 ComicsViewer 看。。。。。不喜欢在 web 上看漫画
|
19
nicksite 2015-09-11 10:05:14 +08:00
礼物说的 专题和商品 小代码搞定。 https://github.com/henryluki/simpleparse/blob/master/liwushuo.py
|
20
mckelvin 2015-09-11 10:16:18 +08:00 via iPhone 3
爬 91porn 视频 :)
|
21
leavic 2015-09-11 10:54:00 +08:00
爬 javbus 上的 av 封面
|
22
codeforlife 2015-09-11 11:04:16 +08:00
我爬的一个 xx 论坛的某个专区,每次种子更新了自动下载。。
|
23
sinosure 2015-09-11 11:13:09 +08:00
把感兴趣的公众号的当天更新爬到一个 feed 里面算么
|
26
lxy 2015-09-11 11:36:30 +08:00
爬某网站数据,做数据分析后发现一些不可告人的秘密,公布出来后成功引发一场论战……
还有就是一些网站不慎泄露的用户数据,密码、邮箱之类的。 |
27
imn1 2015-09-11 12:13:58 +08:00
爬北都集团
|
28
sun2920989 2015-09-11 13:54:36 +08:00
PHP 简单写了个最简易的 爬美女图。。。。
|
29
fish267 2015-09-11 14:06:56 +08:00
|
31
Aresn 2015-09-11 15:43:39 +08:00
第一次写爬虫,把一个竞聘的所有文章( 10 万+)全部爬来了,不知道这数据都是几手的了。。
|
32
bullettrain1433 2015-09-11 15:56:40 +08:00
@codeforlife 求共享
|
34
truehyp 2015-09-11 16:08:56 +08:00
爬过学校图书馆自己借阅过的书。噢,主要是为了可以无限续借书,顺带爬了书单。
|
35
zhouquanbest 2015-09-11 16:17:30 +08:00
1024 的算么
|
36
fakir 2015-09-11 16:43:54 +08:00
把拉钩,内推,IT 桔子上爬了二十万职位信息和五万多家公司信息, 结果发现拉钩数据存在造假呀
|
38
sinosure 2015-09-11 17:12:08 +08:00
|
41
rwecho 2015-09-11 17:31:51 +08:00
@zhouquanbest 求分享。
|
44
loryyang 2015-09-11 17:51:56 +08:00
挂个 VPN 爬妹子图。。。后来觉得太蠢了,废弃了
|
45
ma7x 2015-09-11 17:58:18 +08:00
试过爬一个填单类型的网站 想做的功能是 填写表单 后来没弄出来 改用 chrome 插件了
|
46
xmmak 2015-09-11 18:00:23 +08:00
爬了 Google Play
|
47
codeforlife 2015-09-11 18:10:37 +08:00
@bullettrain1433 https://github.com/winniesi/getsis 昨晚临下班写的。。很乱凑活着看
|
48
jseanj 2015-09-11 18:11:25 +08:00
爬 v2 所有用户的 blog 地址
|
51
laoyuan 2015-09-11 18:40:43 +08:00
山东大学自习室空堂表,包括我常去的千佛山校区 9 号楼、兴隆山校区讲学堂和教学楼
http://d9book.com/sdu/ |
52
androidwdmzzc 2015-09-11 19:12:44 +08:00
@Reed 哈哈! 我觉得这个爬虫,只会让 LZ 更想剁手
|
54
yield9tk 2015-09-11 21:07:36 +08:00
抓取电影天堂的电影下载链接
|
55
LancerComet 2015-09-11 21:21:26 +08:00
不会 Python ,不过 Node 入门时用 Node 写了个爬华盟、极影、动漫花园和漫游资源站的爬虫,自己下资源用,页面用 Angular + Material-Angular 搭的,请脑补感受一下连指令都不会写、一股脑控制器的入门代码,一直想改掉,不过刚看一眼就没动力了…
|
57
bullettrain1433 2015-09-11 21:30:53 +08:00
@codeforlife 感谢
|
58
pmispig 2015-09-12 00:07:37 +08:00
爬了 2 新浪美女图 3W 张,豆瓣美腿大赛 2000 张。
给豆瓣友邻点赞,小伙伴一觉起来发现多了几千个赞,吓哭了~ |
59
JensenChen 2015-09-12 00:17:08 +08:00
@laoyuan 你这个是抓全校全周的课表,然后对教室进行的分析??
|
61
wd0g 2015-09-12 03:20:10 +08:00 1
爬了 1024 所有的账户,然并卵还是没扫到能登录的
|
63
laoyuan 2015-09-12 05:06:45 +08:00
|
64
WhiteSaber 2015-09-12 08:44:51 +08:00
@codeforlife 相当有趣,之前想做一个 js 插件来着,他排版和搜索好差
|
65
bigzhu 2015-09-12 09:35:58 +08:00
我做了自已用的 http://follow.center/ 算不算?
整了 github instagram twitter tumblr 的东西进来,准确的说应该是调用 api ,不算爬虫 不过如果想整合国内的微博、知乎这些封闭型的,估计只能上爬虫了 |
66
Felldeadbird 2015-09-12 09:42:25 +08:00 via iPhone
我把 9 个目标网站所有连接都爬了,然后在抓里面的价格…到只爬了 2KW 条记录时,我放弃了。这样爬没效率。
|
67
bbking 2015-09-12 12:27:59 +08:00
爬 58
|
68
alexapollo 2015-09-12 12:32:28 +08:00
前两年写的少儿不宜爬虫。。 https://github.com/geekan/insane_crawler
|
69
luago 2015-09-12 16:25:43 +08:00
我想知道上面爬图的朋友,图片后来怎么处理了 :)
|
70
ljbha007 2015-09-12 17:02:54 +08:00
爬学校同学的证件照片、学号、班级、课表 爬了 2000 多个
但是胆子比较小 爬完就删了(主要是没有爬到好看的妹子) |
71
davidlau 2015-09-12 17:07:40 +08:00
|
72
sohoer 2015-09-12 18:06:36 +08:00
|
73
csx163 2015-09-12 18:49:18 +08:00
爬种子,发行并没什么*用
|
74
csx163 2015-09-12 18:49:25 +08:00
爬种子,发现并没什么*用
|
75
ultimate010 2015-09-12 19:21:28 +08:00
实习时候用 20+台屌丝云服务器,分布式爬过上亿条淘宝数据,如 http://t.ultimate010.tk:18080/taobao.php 带宽够牛逼,曾经测试跑满 1G 带宽,爽
|
76
vivalon 2015-09-12 19:23:41 +08:00
撸过下厨房的菜单
|
77
giuem 2015-09-12 19:44:10 +08:00 via Android
@ultimate010 这数据占多少存储空间
|
83
erik0 2015-09-13 11:08:30 +08:00
太可怕了,这么多爬虫,起了一身鸡皮疙瘩~~
|
86
ultimate010 2015-09-13 18:41:52 +08:00 via Android
@giuem 压缩了很少,倒入 mysql 后好像几十 G, 可接受.
|
87
HavenShen 2015-09-14 11:14:25 +08:00
爬过携程旅游网。
|
88
v2nu 2015-09-14 12:43:35 +08:00
@dai269619118 看起来不错呀
|
89
dai269619118 2015-09-14 15:20:44 +08:00
@v2nu 嘿嘿
|
90
onlyxuyang 2015-09-15 20:32:00 +08:00 via Android
爬 beautyleg ……爬绅士漫画……
|
92
leetao102 2015-09-30 00:41:25 +08:00
@codeforlife 不错。。。
|
94
ns2250225 2015-10-15 17:16:34 +08:00
爬过多玩的搞笑 gif 图库
|
95
yongjiu236z 2016-12-11 01:05:06 +08:00
|
96
yongjiu236z 2016-12-15 00:57:34 +08:00
|
97
ntuwang 2018-09-24 18:42:28 +08:00
mark
|