1
lawder 2015-12-08 10:49:27 +08:00
抓的搜狗搜索吗?
|
2
50vip 2015-12-08 10:56:19 +08:00
很厉害。。。
|
3
XianZaiZhuCe 2015-12-08 11:05:12 +08:00
那干嘛不用 wordpress 还自己撸什么
|
4
sinux 2015-12-08 11:12:38 +08:00
代码呢?
|
5
1987618girl 2015-12-08 11:26:57 +08:00
代码呢,求 git
|
7
pango OP @XianZaiZhuCe 自己撸可以撸出成就感
|
8
pango OP |
9
Moker 2015-12-08 12:47:39 +08:00
以前也通过搜狗抓过 后来被封了 就别搞了
|
10
qmqy 2015-12-08 12:50:51 +08:00
请问楼主如何处理搜狗反爬虫的策略的?
听说搜狗这方面做了超多限制,各种黑科技。 |
12
Jackhuang 2015-12-08 14:19:32 +08:00 via iPhone
抓搜狗有两个问题,第一是搜狗老是增加难度,第二是不全,而现在在网页端可以分析 xml ,公众可以很全,但是问题是中间有一步需要人工转发到网页端提取 xml 。请问楼主怎么搞定的?前段时间想法就是先人工把公众号的历史搞定,之后更新信息从搜狗抓,但是人工这一步太烦了,搜狗现在用 phtomjs 模拟浏览器, url 居然是 sogou ,原来是直接 tx 的 url 了,意味着还要一步,假期写了一半的爬虫就此放弃了。。。 @pango
|
13
daoluan 2015-12-08 15:29:15 +08:00
半分钟切换数据库或者缓存实现
这句话是什么意思? |
14
costimes 2015-12-08 15:47:16 +08:00
RSS 非全文输出…………
|
15
sadara 2015-12-08 16:13:20 +08:00
求代码
|
16
dong3580 2015-12-08 16:50:42 +08:00 1
@qmqy
先获取列表,保存下 cookie ,然后带 cookie 请求公众号所在的列表地址, 再用该 cookie 去请求某页的列表, 继续用该 cookie 请求列表中某篇文章的内容。 建议用浏览器抓抓,看看原理就懂了,很好理解的。 |
17
lazarus 2015-12-08 17:00:21 +08:00
code 没放出来吗?
|
18
pango OP @Jackhuang 我也是人工,但是数量不多,结合自己写个小程序辅助一下,所以还好。另外还支持直接提交文章,提交的文章只要把 biz 提取出来就可以自动分类。我没涉及到 xml 。
|
19
honeycomb 2015-12-08 17:13:17 +08:00 via Android
楼主强力!
|
21
pango OP @dong3580 最好用 phantomjs 获取 cookie ,直接 request.get 的话好像拿不到完整的 cookie
|
22
pango OP @costimes 先关注一些公众号,在“我的关注”里面输出的 rss 是全文的。
因为微信公众号的文章里面的图片地址不是常规的,要通过 python 转换一下,蛮耗 CPU 的,所以没法全部用全文输出。 |
25
JiaFeiX 2015-12-08 23:34:20 +08:00
求代码
|
26
jkm 2015-12-09 10:01:54 +08:00
我也自己做过一个网站, 和大家分享一下:
去年在国外看到一个很有意思的趣味和搞笑类的视频网站 break.com, 于是仿照它的结构和界面用 CoolPHP 做了一个恶搞类的视频网站(上线地址: http://www.iprank.tv ,因为内嵌了 youtube 视频,需要翻墙才能看到完整的效果)。整个网站从原型制作、 UI 设计、文字策划、前端开发、后台开发以及运营工作等全部工作由我一人兼职完成。 整个网站使用响应式设计,支持 PC,手机和平板等多种分辨率显示设备,网站使用如下技术栈: PHP 开发框架 - CoolPHP 前段框架 - Bootstrap, 使用 Less 来设计调试页面样式,正式上线编译成 css 代码压缩 - Minify 对 js/css 进行文字压缩 第三方 SDK - Google Adsense, Google Analytics, Facebook SDK, Twitter SDK... 网站测试地址: 前台界面,支持注册登陆、浏览以及发布视频: http://www.iprank.tv 后台界面,支持 YouTube 视频抓取,内容编辑等: http://www.iprank.tv/admin 测试账号: [email protected]/123456 |
29
pango OP @jkm 有,很多人做英文采集站都是以图片、软件、视频开始的,因为不涉及到改写,难度较低,所以这样的站很多,也都能分到一点 google 的流量
|
30
mycccc 2015-12-09 14:36:28 +08:00
发现一些自己想看的上面没有
可以提供一个提交公众号的入口么? |
32
Aquamarine 2016-01-04 20:39:12 +08:00
太感谢楼主了,正在找类似的网站,但愿能存活久一些。
另外可以支持知乎专栏或者日报吗? |
33
Aquamarine 2016-01-06 09:43:18 +08:00
感觉奇怪,发现大家要手动刷新 The Old Reader 才能获取到。
|
34
pango OP @Aquamarine 目前广告收入 2 块,正好摊平服务器费用,所以,我想会存活下去,吧。。。
|
35
pango OP @Aquamarine 什么意思?
|
36
Aquamarine 2016-01-07 19:06:34 +08:00
@pango 我指的倒不是经济上的问题,而是会被官方封杀,此类之前的几个不是都荒废了么。
|
37
Aquamarine 2016-01-07 19:07:56 +08:00
@pango 就是说无法主动推送到阅读器中,要手动刷新才能有新的未读条目。但是我第二次发现能够接收到了,我再观察看看,有情况再反馈。
|
38
pango OP @Aquamarine 感谢反馈,不过 weiheji.net 提供的是普通的 Rss ,应该不是导致出现你这个情况的原因。
|
39
Aquamarine 2016-01-09 13:57:57 +08:00
@pango 今天观察结果,能够自动收到订阅内容。不过有时差,截止发回复时点,我这里(手动刷新无更新)最新的是《袁征:漫画大师丁聪之二丨从批判别人到自己挨整》,显示 15 小时前,而你的网站最新是《念经时念亡人名字回向非常重要》,显示 17 分钟前,这个是 RSS 阅读器的问题吧?
|