midysky 最近的时间轴更新
midysky

midysky

V2EX 第 144759 号会员,加入于 2015-10-28 14:57:05 +08:00
根据 midysky 的设置,主题列表被隐藏
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
midysky 最近回复了
[发源地] 数据源市场有 10 几万个网站的规则。很多开发者发布的免费规则可以使用。
发源地云采集引擎,专门干这个事的。刚刚已开源。https://github.com/finndy/finndycloud
@lecher 关于 100w 数据切分的代码思路大概是怎样的?
@lecher 代理这块普通透明代理是否适用于爬虫采集?还是必须要用匿名、高匿名的代理?

淘宝支付宝后台导出 excel 数据时就是分两次处理的。第一步显示 UI 同步导出数据到文件,第二步将该文件链接作为下载对象进行导出下载。你说的切分是怎样的逻辑?
@rekulas 嗯 php 主要用于逻辑方面。 dump 你说的具体是指 sphinx 的哪个地方? 100w 数据通常从 mysql 数据库到 excel 本地文件,具体什么样的逻辑?
@Felldeadbird 1 、比如 mysql 导出 100w 结构化数据到 excel ,最好给个大概代码逻辑参考下? mysql 的 output 命令还是 sql 查询处理到内存?
@Moker 像广告。那我把网址删除?
@Felldeadbird 感谢. ip 网上买的很多。质量高的有测试过哪个好?
第三点就是采集的数据丢到一个独立的服务器环境进行处理,比如一个完整的 html 全文,过去返回其中一个标签。

重点是 mysql 导出问题。你说的分块具体是怎样的?效率怎样?
@Comdex 部分逻辑用 PHP ,底层 c++扩展,还有 python 。
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2717 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 12ms · UTC 12:20 · PVG 20:20 · LAX 04:20 · JFK 07:20
Developed with CodeLauncher
♥ Do have faith in what you're doing.