|  |      1misaka19000      2017-06-17 14:50:01 +08:00 via Android 要是我就换 Redis | 
|  |      2panda0      2017-06-17 15:05:15 +08:00 m | 
|      3bazingaterry      2017-06-17 15:15:28 +08:00 via iPhone  1 先丢进 Redis,再写个中间件处理后再入库吧…… | 
|  |      4360safe OP scrapy 批量化 写入方案 怎么样呢?如果想实现的话如何实现呢? | 
|  |      5iyaozhen      2017-06-17 15:48:44 +08:00 via Android 你这数据量算少了。insert 批量插入就行 | 
|  |      7iyaozhen      2017-06-17 15:59:51 +08:00 via Android @360safe 简单的话就是把每个 value 存着,然后搞个全局计数器,到了一定数量后拼成一个大 SQL,执行就行 | 
|      8zts1993      2017-06-17 16:00:52 +08:00 异步 mysql 驱动。或者用发队列,避免阻塞 | 
|  |      9Allianzcortex      2017-06-17 16:12:51 +08:00 via iPhone executemany | 
|  |      10360safe OP @Allianzcortex executemany 看上去与 NSERT INTO table_name (列 1, 列 2,...) VALUES (值 1, 值 2,....), (值 1, 值 2,....), (值 1, 值 2,....), (值 1, 值 2,....)  类似,只是更清晰。 | 
|  |      12ming2050      2017-06-17 16:48:52 +08:00 先往队列里写,然后再写 consumer 消费掉,这样就不影响采集速度了 | 
|  |      13360safe OP 问题应该解决了: MySQLStorePipeline 定义了一个 article_items 集合用于存储 spider 爬到的 item,当 items 数量达到 1000 时,批量写入数据库。如果接受到 item 就单条写入数据库,会比批量写入慢很对,爬虫的效率会慢一个数量级。 http://kekefund.com/2016/03/31/scrapy-learn/ | 
|  |      14slixurd      2017-06-17 17:21:50 +08:00  1 7000 条一分钟,数据库写压力 117QPS 这么低的压力都嫌慢,说明配置超级垃圾 用这么低配的 MySQL,上 Redis 的意义在哪,浪费资源么,23333 | 
|  |      15360safe OP 不是啊,用的阿里云 RDS,远程的。你这样提醒了我,一会弄一个本地的中转一下。 | 
|  |      16misaka19000      2017-06-17 18:55:23 +08:00 via Android @slixurd 哈哈,没有想到这种情况 | 
|  |      18owenliang      2017-06-18 16:06:35 +08:00 你先试试批量提交能到多少。。 | 
|  |      19NaVient      2017-06-19 09:37:03 +08:00 扔到MQ这种异步队列里,再异步插入不就行了 | 
|  |      20360safe OP 嗯嗯,谢谢大家。最终解决方法是: 因为每次一条 insert into 插入速度很慢,用了一个全局变量存着值,5000 条 executemany 写入一次远程阿里云数据库。 批量后完全满足一分钟过滤 7000 条的需求。(本地数据库也受不了一条条插入。) |