V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
iewgnaw
V2EX  ›  Python

昨夜刚撸完一个微信公众号爬虫的网站,欢迎提出意见

  •  3
     
  •   iewgnaw · 2015-01-22 09:20:24 +08:00 · 36902 次点击
    这是一个创建于 3618 天前的主题,其中的信息可能已经有所发展或是发生改变。

    http://weiread.pw/

    每天定时抓取公众号文章,提供订阅阅读,另外还可以生成kindle杂志定时推送。

    css和js现学现用的,写的比较渣;欢迎提出使用意见

    第 1 条附言  ·  2015-01-22 11:40:43 +08:00
    抱歉,才发现微博登录还要提交审核,否则除了自己的账号其他的无法登录。
    我晚上回去再提交审核一下吧
    85 条回复    2017-12-12 15:58:43 +08:00
    tjxiter
        1
    tjxiter  
       2015-01-22 09:23:23 +08:00
    做个网站,一个月多少钱啊?
    yanwen
        2
    yanwen  
       2015-01-22 09:23:58 +08:00
    不错。。赞一个。。
    typcn
        3
    typcn  
       2015-01-22 09:25:27 +08:00
    Error code: DNS_PROBE_FINISHED_NXDOMAIN
    lzxgh621
        4
    lzxgh621  
       2015-01-22 09:28:25 +08:00
    图片全挂,要不缓存一下,成本太高。。。
    crabhit
        5
    crabhit  
       2015-01-22 09:28:35 +08:00
    这数据是怎么爬下来的
    iewgnaw
        6
    iewgnaw  
    OP
       2015-01-22 09:31:17 +08:00
    @tjxiter 什么一个月多少钱?
    likid
        7
    likid  
       2015-01-22 09:31:57 +08:00   ❤️ 1
    点击订阅没反映。

    另,搜索可以用 搜狗的微信搜索。
    其实可以不用放自己服务器上,只需要做一个简单的转换,把搜狗搜索的内容扒过来即可。也不需要定时抓取。
    iewgnaw
        8
    iewgnaw  
    OP
       2015-01-22 09:32:03 +08:00
    @typcn 可能是pw后缀的域名 有的地方不能解析吧,当时没考虑这个问题
    Hiufan
        9
    Hiufan  
       2015-01-22 09:33:35 +08:00
    用python写的?
    likid
        10
    likid  
       2015-01-22 09:33:57 +08:00   ❤️ 2
    给我接口,帮你鲁一个 iOS 的 App
    iewgnaw
        11
    iewgnaw  
    OP
       2015-01-22 09:40:55 +08:00
    @likid 登录之后才能订阅的。点击订阅不是跳转到登录界面?
    内容是根据搜狗抓取来的,不爬图片服务器压力也不大的
    xmy2232867
        12
    xmy2232867  
       2015-01-22 09:41:18 +08:00
    搞个这个要用到哪些技术啊?
    wuxianglong
        13
    wuxianglong  
       2015-01-22 09:42:04 +08:00
    请问楼主,数据是怎么抓取的?
    iewgnaw
        14
    iewgnaw  
    OP
       2015-01-22 09:43:25 +08:00
    @lzxgh621 你那边看不到图片?部分放qiniu上的,其他都是外链微信的
    iewgnaw
        15
    iewgnaw  
    OP
       2015-01-22 09:44:27 +08:00
    @Hiufan 是的,django框架
    dddd
        16
    dddd  
       2015-01-22 09:45:02 +08:00
    以前看到过一个传送门……
    http://chuansong.me/

    …………
    likid
        17
    likid  
       2015-01-22 09:45:55 +08:00
    @iewgnaw 没有跳到登录界面。
    likid
        18
    likid  
       2015-01-22 09:46:41 +08:00
    @iewgnaw 刚才试了一下,又可以了
    iewgnaw
        19
    iewgnaw  
    OP
       2015-01-22 09:46:51 +08:00
    @dddd 是的,开始我也是用传送门的;我一开始的目的是为了抓取推送到kindle的,后来还是顺带用django写了阅读功能
    jaytags
        20
    jaytags  
       2015-01-22 09:48:56 +08:00
    @iewgnaw
    lz速度还不错哦。 主机哪里买的呢?
    qiniu 的存储怎么变成这样的clouddn.com域名呢?
    iewgnaw
        21
    iewgnaw  
    OP
       2015-01-22 09:54:48 +08:00
    @xmy2232867
    django 框架, python主要用request bs4 gevent


    @wuxianglong
    搜狗有微信搜索功能,可以抓取url, 再抓取内容
    lizhijun
        22
    lizhijun  
       2015-01-22 09:57:20 +08:00
    lz可以看看这个 界面好看多了

    http://wx.91toutiao.com/
    veau
        23
    veau  
       2015-01-22 09:58:42 +08:00
    @iewgnaw ,sogou的微信搜索,抓取频率高了不是会被干么。
    kiritoalex
        24
    kiritoalex  
       2015-01-22 10:00:32 +08:00   ❤️ 1
    不错,做得挺赞的!
    unixbeta
        26
    unixbeta  
       2015-01-22 10:11:20 +08:00 via Android
    来源吧
    linsk
        27
    linsk  
       2015-01-22 10:11:44 +08:00
    @jaytags leancloud
    iewgnaw
        28
    iewgnaw  
    OP
       2015-01-22 10:12:33 +08:00
    @jaytags 两个办瓦工的vps, 凑合还可以用
    我用qiniu 默认给的域名,好像是可以自定义
    alexkh
        29
    alexkh  
       2015-01-22 10:13:23 +08:00
    win8,感觉文章字体有点虚
    iewgnaw
        30
    iewgnaw  
    OP
       2015-01-22 10:15:15 +08:00
    @veau 开始也碰到过这个问题,后来实现一个代理池,基本解决了被干的问题。
    不过请求频率低一点,尽量伪造真实的浏览器行为能减少被干的可能
    declanVox
        31
    declanVox  
       2015-01-22 10:17:00 +08:00
    能帮抓下人人公众平台的这个账号(历史就是重口味)吗?我想把他变成RSS订阅(人人公众号在PC端不让看,只能上移动端)

    链接如下
    http://public.renren.com/blog/630002445/944051120
    puyo
        32
    puyo  
       2015-01-22 10:17:19 +08:00
    puyo
        33
    puyo  
       2015-01-22 10:18:46 +08:00
    可以定于很赞啊,但是“weibo login failed”
    wormcy
        34
    wormcy  
       2015-01-22 10:26:36 +08:00
    同好奇 数据是从哪爬的
    Jning
        35
    Jning  
       2015-01-22 10:54:41 +08:00
    不错,赞
    exceloo
        36
    exceloo  
       2015-01-22 11:14:05 +08:00
    搜狗又是怎么抓的,好奇
    tearsinchina
        37
    tearsinchina  
       2015-01-22 11:25:19 +08:00
    请问有提交的地方吗?
    iewgnaw
        38
    iewgnaw  
    OP
       2015-01-22 11:30:24 +08:00
    @puyo MD微博登录还要新浪审核?好像是这个问题,之前一直用自己的账号登录,没有问题。哎,晚上回去再弄一下吧。可以订阅阅读,推送到kindle


    @tearsinchina 左下角有个“添加公众号”的按钮;添加之后,并不会立即抓取文章列表
    shajiquan
        39
    shajiquan  
       2015-01-22 11:31:30 +08:00
    看起来很酷。但是用微博登录后显示:weibo login failed。
    zhoupengfei
        40
    zhoupengfei  
       2015-01-22 11:35:35 +08:00
    @exceloo 搜狗微信不是一家吗
    Crossin
        41
    Crossin  
       2015-01-22 11:41:58 +08:00
    楼主是如何找到新文章的?一直没找到这个来源
    BloodyGhoul
        42
    BloodyGhoul  
       2015-01-22 11:59:01 +08:00 via Android
    可以提交自己想要的公众号么?
    jon
        43
    jon  
       2015-01-22 11:59:28 +08:00
    不错做这个要会什么,学多久?
    endosome
        44
    endosome  
       2015-01-22 12:15:03 +08:00
    可以给出rss 链接么?
    zangbob
        45
    zangbob  
       2015-01-22 12:24:35 +08:00   ❤️ 1
    楼主已经说了,不能微博登录,所以没法测试添加rss。。。

    希望楼主能继续努力,超越那个chuansongme。。。。那个烂网站太恶心了
    wanghanlin
        46
    wanghanlin  
       2015-01-22 12:26:11 +08:00
    babyname
        47
    babyname  
       2015-01-22 12:26:29 +08:00
    搜狗是腾讯给的API
    第三方抓,抓取某个公众号的文章,通过历史消息页面。
    Lucups
        48
    Lucups  
       2015-01-22 12:54:09 +08:00
    @lzxgh621 不是全挂,我开始也以为是的,要滚动一下页面,才会加载图片。。。bug @iewgnaw
    ericls
        49
    ericls  
       2015-01-22 12:55:07 +08:00
    真羡慕你们这些会设计界面的!!
    iewgnaw
        50
    iewgnaw  
    OP
       2015-01-22 13:15:59 +08:00
    @Crossin 查看搜狗微信搜索的请求地址啊
    @BloodyGhoul 可以添加的,走下角有个按钮的。但不是立即抓取所有内容。

    @jon 会前端的话很快的吧,我主要是不会前端,现学现做的,真是吐血啊

    @Lucups 哪个页面滚动才加载图片的?文章的阅读页面是等图片到达可视区才加载的,其他的都是直接加载的

    @ericls 现学现做,再抄抄别人的界面
    Alecio
        51
    Alecio  
       2015-01-22 13:20:58 +08:00
    天。。这几天我也正在做一个类似的东西,没想到LZ已经做好了。。
    后台转mobi格式用的是calibre还是Kindlegen?
    maye696
        52
    maye696  
       2015-01-22 13:25:11 +08:00
    这个好东西,能订阅feedly就太好了
    vivisidea
        53
    vivisidea  
       2015-01-22 13:25:54 +08:00
    不错啊,但这样会有版权问题么。。
    Lucups
        54
    Lucups  
       2015-01-22 13:37:38 +08:00
    @iewgnaw 不知道是不是你的 jquery.unveil 有问题



    Lucups
        55
    Lucups  
       2015-01-22 13:39:11 +08:00
    难道是因为我用 21寸屏幕看的原因?
    SuperSquirrel
        56
    SuperSquirrel  
       2015-01-22 13:53:21 +08:00
    很不错,喜欢这样的界面
    huigeer
        57
    huigeer  
       2015-01-22 13:56:19 +08:00
    界面不错哦,默默赞一个
    tjxiter
        58
    tjxiter  
       2015-01-22 14:43:21 +08:00
    @iewgnaw 做网站,买域名一个月多少钱? 不过查了下,你那个域名是免费的
    shiny
        59
    shiny  
       2015-01-22 14:45:18 +08:00
    @iewgnaw 搜狗抓取有频率限制,你有没有做突破限制的处理?
    hanyun
        60
    hanyun  
       2015-01-22 19:56:16 +08:00
    不错噢!之前有看过传送门~ @shiny 同问搜狗的抓取频率限制怎么处理?
    iewgnaw
        61
    iewgnaw  
    OP
       2015-01-22 20:17:29 +08:00
    @Alecio 这么巧啊。用的kindlegen的,calibre有命令行的方式?
    @vivisidea 细究的话肯定有的,但这种网站不会有什么大的影响,应该没人追究吧
    @Lucups 应该是那个js有些问题。我再改改看
    iewgnaw
        62
    iewgnaw  
    OP
       2015-01-22 20:19:29 +08:00
    @tjxiter 不是免费的,一年也就几十块

    @shiny
    @hanyun
    实现了一个代理池的功能,保证每次请求都是代理池中的ip
    ljcarsenal
        63
    ljcarsenal  
       2015-01-22 21:19:41 +08:00
    大家都热衷爬微信的文章,哈哈。。。一个月之前做了个 http://www.fxbiao.net/ ,不过界面不是我写的
    fuermosi777
        64
    fuermosi777  
       2015-01-23 00:05:12 +08:00   ❤️ 2
    可以看看我做的iOS app 也是用python爬的 不过目前公众号只有120多个 https://itunes.apple.com/us/app/xue-sheng-ri-bao-hui-ju-zui/id954164794?mt=8
    flash866
        65
    flash866  
       2015-01-23 10:31:24 +08:00
    楼主能分享下原理吗?
    Juntle
        66
    Juntle  
       2015-01-23 10:46:56 +08:00
    很赞哦!
    ATiGr
        67
    ATiGr  
       2015-01-23 10:53:42 +08:00
    非常好用!期待信息更加完全!感觉比手机看方便太多啊!
    imlewc
        68
    imlewc  
       2015-01-23 12:00:02 +08:00
    imlewc
        69
    imlewc  
       2015-01-23 12:00:46 +08:00
    @shiny 何必那么频繁,定时就够了
    imlewc
        70
    imlewc  
       2015-01-23 12:01:17 +08:00
    @dddd 这个还行 量还是有的
    imlewc
        71
    imlewc  
       2015-01-23 12:02:17 +08:00
    @vivisidea 在中国是不太用考虑这个问题的
    imlewc
        72
    imlewc  
       2015-01-23 12:03:54 +08:00
    @fuermosi777 点个赞
    vivisidea
        73
    vivisidea  
       2015-01-23 14:41:50 +08:00
    @tjxiter pw域名不免费,但相对比较便宜,namecheap上最近注册了一个 lib64.pw 首年才24块RMB,续费好像是 50RMB/year

    估计这类域名对搜索引擎不是很友好,可能内容比较难被收录
    tjxiter
        74
    tjxiter  
       2015-01-23 17:16:05 +08:00
    @vivisidea 看来一分钱一分货是永恒的真理。

    要是搞个个人博客买什么域名比较好呀?
    ivlucks
        75
    ivlucks  
       2015-01-23 18:03:08 +08:00
    @yanwen 谢谢
    vivisidea
        76
    vivisidea  
       2015-01-23 18:21:37 +08:00
    @tjxiter 不造啊。。个人博客写着写着就写不下去了,我还有一个 info 域名收录情况貌似还好

    去google 的 webmaster tool 提交索引请求
    提交 sitemap.xml
    优化页面的 title,keywords

    这些基本的对搜索引擎友好的事情要做

    当然最重要还是文章质量要高
    rico93
        77
    rico93  
       2015-01-25 15:14:17 +08:00
    kindle的订阅发送时怎么实现的
    dellch
        78
    dellch  
       2015-01-25 17:11:36 +08:00
    @fuermosi777 请问是原生应用么?
    fuermosi777
        79
    fuermosi777  
       2015-01-25 23:00:53 +08:00
    @dellch 是的 文章页面用的webview
    Crossin
        80
    Crossin  
       2015-01-29 10:53:45 +08:00
    @iewgnaw @wanghanlin 嗯,那么问题来了:他这里是通过什么发现文章更新并抓取的呢?
    虽然从实现上来说,有一个地方能给到最新数据已经可以了,但没想通这个问题。官方公开渠道是没找到。
    有想到过,通过微信关注一堆公众号,然后想办法模拟这个微信号的登录,拿到收到的公众号文章列表。
    misctalk
        81
    misctalk  
       2015-02-02 19:29:56 +08:00
    文章抓取是怎么实现的啊?
    有没有开源实现可以学习?

    谢谢了
    muzixinly
        82
    muzixinly  
       2015-08-03 15:31:23 +08:00
    @iewgnaw 代理池用的哪个呢?
    wenfan
        83
    wenfan  
       2015-11-19 13:22:34 +08:00 via iPhone
    我也一直有个项目 需要找到 key 和 pass_ticket , pass_ticket 已经基本解决了,还需要 key ! 如果有人会解决 可以有偿!!! wechat 微信: 23511839.......跪求
    haoning747
        84
    haoning747  
       2016-03-07 21:04:05 +08:00
    微信我算是放弃了,直接爬不可以,用斯库林模拟点击也不可以,所以,大家还不不要再搞了,我还是玩我的网盘吧: http://www.quzhuanpan.com
    wjx1993
        85
    wjx1993  
       2017-12-12 15:58:43 +08:00 via Android
    @likid 搜狗的微信公众号文章是有时效的吧!
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1141 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 18:19 · PVG 02:19 · LAX 10:19 · JFK 13:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.