|      1for4      2013-03-12 09:22:08 +08:00  4 Python +requests +lxml +celery | 
|  |      4xieren58      2013-03-12 09:40:41 +08:00 Node  + jquery | 
|  |      7shinwood      2013-03-12 10:03:05 +08:00  2 | 
|  |      8greatghoul      2013-03-12 10:13:34 +08:00 @shinwood 这个用起来的确骚爽。 | 
|  |      9colincat      2013-03-12 10:13:35 +08:00 via Android java | 
|      10for4      2013-03-12 10:14:06 +08:00  1 @liuxurong  我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做. 还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑 | 
|  |      11wingoo      2013-03-12 10:53:32 +08:00 scrapy | 
|  |      12twm      2013-03-12 10:55:26 +08:00 JAVA PHP | 
|  |      13dulao5      2013-03-12 17:40:21 +08:00 PHP +  curl_multi_* 不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。 | 
|  |      14xjay      2013-03-12 20:05:01 +08:00 scrapy 不解释 | 
|  |      15PrideChung      2013-03-12 20:09:22 +08:00 ruby+norogiri  http://nokogiri.org/ | 
|  |      16amxku      2013-03-12 20:30:18 +08:00 Python +curl +celery | 
|  |      171up      2013-03-12 20:36:18 +08:00 http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python | 
|  |      18cloverstd      2013-03-12 21:14:19 +08:00 Python: urllib, urllib2, re | 
|  |      19run2      2013-03-12 22:18:01 +08:00 前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,- cheerio很好用阿,完全是jQuery的语法。 require('http');require('cheerio');require('iconv').Iconv;require('mongodb'); | 
|  |      20chuck911      2013-03-12 22:34:53 +08:00 还有人写个爬虫还非要用芹菜... Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒 | 
|  |      23Linxing      2013-03-13 01:23:03 +08:00 via Android python beautifulsoup urlib爬文章 | 
|  |      25crazybubble      2013-03-13 04:34:27 +08:00  1 @atom 用regex来做html parsing不推荐,我推荐用jsoup。 | 
|  |      27workaholic      2013-03-13 08:04:13 +08:00  1 php+snoopy | 
|  |      28akalanala      2013-03-13 08:48:24 +08:00 @crazybubble 同推荐. | 
|  |      29binux      2013-03-13 09:21:19 +08:00 python + tornado AsyncHTTPClient + PyQuery | 
|  |      30sonicwu      2013-03-13 09:24:32 +08:00 Java + jsoup Python + Beautiful Soup + urllib + lxml | 
|  |      31dingyaguang117      2013-03-13 10:05:15 +08:00 Python + Beautiful Soup + lxml + Scrapy | 
|  |      32atom      2013-03-13 13:59:52 +08:00 | 
|  |      33zoran      2013-03-14 13:12:55 +08:00 Java 可以试试这个 https://github.com/zhuoran/crawler4j | 
|  |      34yangxin0      2013-03-14 13:42:31 +08:00 看过别人用C | 
|  |      35Xrong      2013-03-14 18:43:04 +08:00 希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。 | 
|      36zdwalter      2013-03-15 16:21:50 +08:00 phantomjs, casperjs | 
|  |      37zhouquanbest      2013-03-16 18:17:38 +08:00 python + pyquery 是个好东西 会jquery就能写 | 
|  |      38nojt7Zm      2013-03-17 21:51:02 +08:00 php | 
|      39kingwkb      2013-03-17 21:58:54 +08:00 | 
|      40gameending      2013-03-17 22:09:33 +08:00 python跟java都写过,python很简洁,java的话我觉得也还不错 | 
|  |      41lbj96347      2013-03-17 23:08:21 +08:00 node.js or python. :-) | 
|      42kdepp      2013-07-07 23:03:59 +08:00 node + cheerio | 
|  |      43briefcopy      2014-08-18 21:22:21 +08:00 用WebCollector(JAVA爬虫),https://github.com/CrawlScript/WebCollector | 
|      44cangbaotu      2016-05-24 17:12:36 +08:00 http://www.shenjianshou.cn/ 神箭手云爬虫 | 
|      45ssllff123      2016-10-10 14:56:50 +08:00 | 
|  |      46billyellow      2016-11-16 18:48:53 +08:00  1 推荐试下这个 http://www.zaoshu.io | 
|  |      47GrahamCloud      2017-02-23 14:11:42 +08:00 @billyellow 好的! | 
|  |      48jiankaikey      2018-11-30 18:50:29 +08:00 右键->另存为 |