网站跑在 AWS S3 上面不知道能否访问: https://kmppp.com
技术栈介绍和价值一个亿的核心代码开源在: https://github.com/slashbit/spider-less
至于功能,动图走起!

附上架构图

|  |      1rayhy      2018-12-15 10:41:59 +08:00 弱弱地问一下楼主有没有试过用国内的云服务商提供的类似功能(比如腾讯云的云函数)来做这件事情? | 
|  |      2d5      2018-12-15 11:00:32 +08:00 via iPhone 支持 | 
|  |      3rayingecho      2018-12-15 11:09:29 +08:00 思路很棒,已 star | 
|  |      5abmin521      2018-12-15 12:08:55 +08:00 via Android 量大的话需要 MQ 吧 | 
|  |      6isCyan      2018-12-15 12:54:33 +08:00 AWS 全家桶实战,支持一个 | 
|  |      78bits OP @abmin521 Message Queue 吗?嗯,可以用 AWS 的 SQS ( Simple Queue Service ),cron 函数将需要爬的任务筛选出来后,将消息扔到队列中,scrape 函数由队列消息触发 | 
|      8Senventise      2018-12-15 14:20:13 +08:00 via Android 建议防一下滥用,貌似可以访问墙外地址 | 
|  |      9miao      2018-12-15 14:21:01 +08:00 只能爬文字? | 
|  |      108bits OP @Senventise 的确哈,因为爬虫访问“外网”是不受限制的... | 
|  |      12binarymann      2018-12-15 17:52:32 +08:00 不错不错,正好学习下 serverless | 
|  |      138bits OP | 
|  |      14tedd      2018-12-15 21:36:26 +08:00 已订阅了个站的更新,谢谢分享🙏 | 
|  |      15bbmmwan886      2018-12-16 04:47:07 +08:00 via Android 貌似面向国外的 不知道会不会更新中文的  英文用起来还是不太习惯😅😅😅 | 
|  |      168bits OP @bbmmwan886 操作很简单啦 😊 | 
|  |      17landi      2018-12-17 15:02:44 +08:00 网站很漂亮啊,ui 是自己设计的吗。。。 | 
|      19dezhou9      2018-12-17 17:44:45 +08:00 via Android 有点简单啊,高中生水平,朋友。已 star | 
|  |      20evanvane      2018-12-18 07:44:24 +08:00 via Android 请问下,第二张图是怎么生成的? | 
|  |      228bits OP @evanvane 在这里画的: https://cloudcraft.co/ |