像这种多新闻来源的爬虫，是每种来源都做一套爬虫？

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 2332 days ago, the information mentioned may be changed or developed.

如果不是，通常是用啥方法来做？

爬虫

来源

方法

通常

33 replies • 2020-02-22 23:34:25 +08:00

est

Feb 17, 2020 via Android

这个大概率是坐了一个小编

shanlan

Feb 17, 2020

1.官方 API
2.人肉抓取
3.定制爬虫

secsilm

Feb 17, 2020

@est 是个狠人，这得多少人干这

murmur

Feb 17, 2020

官方的新闻直接爬，非官方的人工洗稿

twor2

Feb 17, 2020

应该是人工的吧，至少半人工

ired

Feb 17, 2020

@est 同意，人肉 API

secsilm

Feb 17, 2020

@murmur 直接爬的话，是不是也得每种来源搞一套爬虫？这工作量感觉不小啊

litmxs

Feb 17, 2020 via Android

就算是人力成本也不是很高吧

andylsr

Feb 17, 2020

@secsilm 原则上每个来源写一个解析就行了

est

Feb 17, 2020

@secsilm 没有人的话，万一新闻源搞了个大新闻，你自动同步上去，等于你也有一份泽任吧。

jellybool

Feb 17, 2020 via Android

@est 泽任这个词，excited ！

metamask

Feb 17, 2020

不是一套，

一般是先自己搭个框架，
像这种，可以分别写爬取机制 + 清洗机制(parse )，然后做入库。

像 v 站一个老哥的，pyspider 用来做这玩意就还不错。

locoz

Feb 17, 2020 via Android

新闻类的直接上智能提取就行了，不用写规则，而且这种需求就无脑刷最新新闻那一页就行。
至于最终发布…显然部分非官方的新闻是人肉处理的，有新闻就直接推到编辑那，审核没问题了再提出关键内容放上去。

nocoolsandwich

Feb 17, 2020

看你样子是想要疫情的数据吧,github 有人整理好了,数据来源丁香园好像是.https://github.com/BlankerL/DXY-COVID-19-Data

delectate

Feb 17, 2020

来源就那几个，写规则就好；一般人机器爬，人肉审、二审、发。

alaikis

Feb 17, 2020

做几个规则，一个源配置一下就好呀，没那复杂

murmur

Feb 17, 2020

@secsilm 官方新闻其实就那么几个源，一个字都不能改

secsilm

Feb 17, 2020

@locoz 智能提取是个什么鬼

Ericcccccccc

Feb 17, 2020

人力成本很低啊

locoz

Feb 17, 2020

@secsilm #18 比如 https://github.com/kingname/GeneralNewsExtractor

Mavious

Feb 17, 2020

灰字提要，得人工来提取吧，毕竟新闻也没有固定格式，核心内容还是要人来提取的。

jingniao

Feb 17, 2020 via Android

丁香园是人工的，因为早上七点之前好像大都不更新。
刚开始那几天好像是小编通宵 /轮班了，晚上也有更新。

jabin88

Feb 17, 2020

正文提取算法，不要用正则

2ME

Feb 17, 2020 via Android

关键词 Readability 识别新闻站的正文进行提取

herozzm

Feb 17, 2020 via Android

通用爬虫针每个新闻源定制规则

wolfan

Feb 17, 2020 via Android

爬微博不就成了😅

lshero

Feb 17, 2020

有个岗位叫做值班编辑

chroming

Feb 17, 2020

专业一点的是用火车头这类工具每个网站写提取规则来爬。要求不高的话找现成正文提取算法直接提取

chroming

Feb 17, 2020

如果只是几个网站的话那人工直接复制更简单

secsilm

Feb 17, 2020

@locoz 学习了，谢谢

ChangQin

Feb 17, 2020

我想爬 twitter 的数据，结果开发者账号好难申请啊。。。

yinzhili

Feb 18, 2020

这种肯定是人工介入的，怕出问题责任重大

enrolls

Feb 22, 2020

认真观察网页结构，其实是有通用方法的，印象笔记不是也剪藏了莫。
(顺带测试回复功能)