付费做一个新闻爬虫 - V2EX

Home Sign Up Sign In

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

This topic created in 3232 days ago, the information mentioned may be changed or developed.

具体要求:

1. 使用 python3
2. 通过关键词抓取新闻，抓取全文
3. 抓取 wexin 公众号全文
4. 直接写入 Mysql 数据库，数据库 wp 可以直接读取
5. 数据抓取不能有重复（不能和以前数据重复）

前 1，2，3 已经完成了，主要完成后面 4，5 和重构一下前面的一堆代码。

有意请发报价周期到 [email protected]

谢谢

Supplement 1 · Sep 13, 2017

已经找到小伙伴，谢谢支持：）

[email protected]

7 replies • 2017-09-16 12:42:42 +08:00

1

brucebot

OP

Sep 12, 2017

也可以 twitter 上 @brucebot

2

a7063888

Sep 12, 2017

scrapy 走起

3

ila

Sep 12, 2017 via iPhone

@a7063888 除了 scrapy 还有哪些类似框架啊

4

poorguy

Sep 13, 2017

@ila beautifulsoup

5

shawlib

Sep 13, 2017

楼上说的 scrapy 跟 beautifulsoup 都不是一个东西，scrapy 是爬虫框架，beautifulsoup 是 html 解析库，(黑人问号???

6

ila

Sep 13, 2017 via Android

@shawlib 现在用着 scrapy，想找个后备的

7

RaymondLiu

Sep 16, 2017 via iPhone

@ila pyspider 可视化可分布式爬虫框架

About · Help · Advertise · Blog · API · FAQ · Solana · 1002 Online Highest 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 32ms · UTC 23:03 · PVG 07:03 · LAX 16:03 · JFK 19:03
♥ Do have faith in what you're doing.