Scrapy 如何爬瀑布流的站点? - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3800 天前的主题，其中的信息可能已经有所发展或是发生改变。

RT，Scrapy如何爬瀑布流的站点？

16 条回复 • 2015-06-07 10:20:24 +08:00

1

est

2015-06-05 13:01:03 +08:00

我遇到了这个问题，解决办法是自己写。

2

mthli

2015-06-05 13:11:02 +08:00 via Android

瀑布流有"page="吧，试试找找看看？

3

kisshere

2015-06-05 13:34:47 +08:00 via Android

抓包，提取网址，实在不会用casperjs吧

4

mahone3297

2015-06-05 13:36:39 +08:00

@est 自己写是什么意思？

5

nikoukou

2015-06-05 14:03:12 +08:00

casper.js可以试一试，就是速度比较慢，相当于cli的按键精灵。。

6

rphoho

OP

2015-06-05 14:12:01 +08:00

@nikoukou
@kisshere
所以只用scrapy是没办法实现的吗，一定要模拟浏览器行为？
有或者有什么爬虫框架适合做这个吗？

7

ericls

2015-06-05 14:13:58 +08:00

@rphoho 你分析浏览器请求。

8

alexapollo

2015-06-05 14:22:58 +08:00

上内核做渲染！

9

duobei

2015-06-05 14:37:54 +08:00

@alexapollo 这个建议不错

10

kisshere

2015-06-05 16:16:14 +08:00 via Android

@rphoho 刚都说了，叫你chrome F12键抓包，一般如果他的MySQL不是cursor分页的话，可以直接按照pageid递增就抓取了，遇到瀑布流是好事，这样更容易抓取

11

kisshere

2015-06-05 16:18:08 +08:00 via Android

瀑布流一般都会ajax加载json，更容易抓取和解析

12

allen3921

2015-06-05 19:19:04 +08:00

直接分析js

13

ChiangDi

2015-06-05 19:23:44 +08:00

当然是看他的 js 代码，有时候可能爬虫都不要写就是一个 json API

14

alexapollo

2015-06-06 00:35:06 +08:00

@duobei 其实这是最标准的方法。。应该。。

15

onlyice

2015-06-06 20:21:56 +08:00

如果不是瀑布流，你会怎么抓？
其实是不是瀑布流跟 scrapy 没什么关系，只跟网站的 HTTP 接口是怎样的有关系。

16

mingyun

2015-06-07 10:20:24 +08:00

casper.js没用过，有这方面的案例吗

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 5399 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 25ms · UTC 06:45 · PVG 14:45 · LAX 23:45 · JFK 02:45
♥ Do have faith in what you're doing.