V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
seki
V2EX  ›  问与答

从国外服务器下载大量数据( TB 级),求助方案

  •  1
     
  •   seki · 2016-05-24 18:47:20 +08:00 · 9078 次点击
    这是一个创建于 3105 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我所在的(小)公司需要从国外的服务器下载一个数据集,总数据量在 5TB 左右,受国内渣渣网络的原因,直接下载速度太慢,而数据下载(目前看起来)是可以直接用 http 反代的,所以需要有一些更有效率的代理中转方案。

    目前我想到的方案是:阿里云的 1CPU , 1GB 内存, 5Mbps 带宽 ECS 三台并行下载。

    5Mbps 带宽是因为带宽阶梯计价, 5Mbps 之后带宽单价变高,且受网络连接能力限制,即使有更高的带宽也不一定能实现满速,不如多台分别下载。云主机数量是考虑到了公司本身的下载带宽。反代工具使用 nginx ,用 python 生成 url ,下载用 python 的 requests 库(因为都是 windows 机器,装 wget 或者 curl 略麻烦)。不知道有什么更好的建议吗?

    P.S. 其实 linode 东京的速度试了一下也还好,而且更便宜,但是没有发票……

    第 1 条附言  ·  2016-05-25 03:10:06 +08:00

    感谢大家的回复,我在文中说得有一点乱,所以把现有的一些情况再整理一下:

    1. 这个数据是美国政府出资因而公开提供的,提供 http 、ftp 和 opendap 下载方式,每个数据文件的下载地址都很有规律,不存在嗅探和构造地址方面的障碍。只不过下载限制(并发数,同 ip 流量等)不是特别明确,希望没什么限制吧。
    2. 数据量是 5TB 左右
    3. 在北京阿里云(没开 IO 优化)上单个数据 wget 下载速度 为 1.7M/s~2M/s 之间波动,Linode,20+M/s
    4. 公司的一个办公室是 10Mbps 电信,另外一个办公室是 100Mbps 小 ISP(所以是注水的带宽,经过测试能跑满 5Mbps 就挺好了……)。我自己租的房子也是在用一个小 ISP 的注水宽带,测试效果还更惨一些
    5. 机器全是 Windows
    6. 希望费用较为明确,并且最好能够有用于报销的发票

    下面回应一下我对一些方案的想法:

    选择按流量计费?

    • 按 0.8元/G 的流量计费来算的话,要花费 4000 元左右,而由于下载网络带宽的限制,并不能显著加快下载进度。 我列出来的固定带宽的阿里云主机每一台是 210元一个月

    外包代下载?

    • 当然是一个可行的方案,毕竟专业的事情交给专业的人是对的。我会问问领导的看法的。

    网盘中转?

    • 这个方案限制比较多,一是云主机的硬盘容量,二是网盘的容量和传输速度,三是网盘的 API,最后不能避免的瓶颈,还是下载带宽……

    虽然已经意识到最大的短板是本地下载带宽了,我个人是比较希望大家能够继续提出意见,多谢!

    第 2 条附言  ·  2016-05-25 10:25:41 +08:00
    好了领导说找合作伙伴下载了……本帖完结,谢谢大家。知道了一种新的业务叫做代下载,这波不亏,以后有需要的话会考虑的
    32 条回复    2017-06-10 17:12:00 +08:00
    a302800411
        1
    a302800411  
       2016-05-24 18:52:03 +08:00   ❤️ 3
    国际快递
    Showfom
        2
    Showfom  
       2016-05-24 18:52:12 +08:00 via iPhone   ❤️ 2
    Window   s 下用 IDM 多线程下载更快

    我就晚上下载下载 一个月不到就塞满我 6T 硬盘了 阿里云还是 G 口

    要是很赶时间那就让机房寄硬盘吧
    Showfom
        3
    Showfom  
       2016-05-24 18:53:09 +08:00 via iPhone
    这个业务可以包给我 我帮你们把数据放在香港的服务器里 你们本地开 10 个线程下载拖回来就是了
    halczy
        4
    halczy  
       2016-05-24 18:57:58 +08:00   ❤️ 1
    找个多线程下载的软件就可以了,例如 JDownloader , Aria2 等。你开 10-20 线程来下,国内网络还不至于烂到 15Mbps 都跑不过。
    seki
        5
    seki  
    OP
       2016-05-24 18:59:48 +08:00
    @Showfom 主要是公司网络本身也没这么快。可能的确要考虑在公司之外下载了。
    我自己下的话估计也有办法,但是涉及到费用报销的问题……麻烦
    Showfom
        6
    Showfom  
       2016-05-24 19:00:57 +08:00 via iPhone
    @seki 显然可以开发票
    SourceMan
        7
    SourceMan  
       2016-05-24 19:04:27 +08:00   ❤️ 1
    你叫兽兽帮你存到硬盘寄给你不就得了,付一定的费用
    cloudbeyond
        8
    cloudbeyond  
       2016-05-24 19:35:23 +08:00   ❤️ 2
    TsunamiUDP 只有撑不住的机器,没有跑不满的带宽 :)
    zzutmebwd
        9
    zzutmebwd  
       2016-05-24 20:03:04 +08:00   ❤️ 1
    我可以试试帮忙下。这边直连蛮快的,一夜应该能下完。
    zzutmebwd
        10
    zzutmebwd  
       2016-05-24 20:05:50 +08:00
    @zzutmebwd 我错了 粗估了一下, 百兆满速需要五天
    popok
        11
    popok  
       2016-05-24 20:14:27 +08:00
    @zzutmebwd 一夜,我吓尿了。
    jhaohai
        12
    jhaohai  
       2016-05-24 20:18:08 +08:00 via iPhone   ❤️ 1
    找可以按流量计费的
    luo362722353
        13
    luo362722353  
       2016-05-24 20:55:10 +08:00   ❤️ 1
    找一个有 5T-6T 硬盘的机房落到机房,然后通过机房传国内网盘?
    AstroProfundis
        14
    AstroProfundis  
       2016-05-24 21:03:05 +08:00   ❤️ 1
    让兽兽从机房下载完装硬盘里寄给你好了
    fcicq
        15
    fcicq  
       2016-05-24 22:06:51 +08:00   ❤️ 1
    在国外下载, 边下载边传回到国内云存储啊. 就是个线路的问题
    hahahasnoopy
        16
    hahahasnoopy  
       2016-05-24 22:17:03 +08:00 via iPhone   ❤️ 1
    找个水货客顺路从香港那边下载好,然后到深圳那边带过来
    neilp
        17
    neilp  
       2016-05-24 22:19:38 +08:00   ❤️ 1
    用 cloudflare 做反代, 我这边下载能把本地贷款撑满.

    最近百度和 cloudflare 搞基.

    如果再用 百度 网盘会员 来下载 cloudlfare 的反代, 不知道能不能快.
    pxlxh
        18
    pxlxh  
       2016-05-24 22:43:56 +08:00   ❤️ 1
    香港基友下载,人肉带过关,然后顺丰。
    hicdn
        19
    hicdn  
       2016-05-24 23:13:18 +08:00   ❤️ 1
    上传天翼云盘,再下载,搬瓦工上传速度峰值 13MB/s ,平均 8MB/s
    leopard080264
        20
    leopard080264  
       2016-05-24 23:25:13 +08:00   ❤️ 1
    上海 48 小时内搞定,请联系 用户名 @gmail.com
    czk1997
        21
    czk1997  
       2016-05-25 02:32:01 +08:00   ❤️ 1
    不能直接拷盘么……
    按流量计费好点。
    em70
        22
    em70  
       2016-05-25 02:55:43 +08:00   ❤️ 1
    阿里云只对下行数据收费,上行带宽是免费的,最大带宽 1G,换句话说在服务器上下载数据是免费的
    w466397352
        23
    w466397352  
       2016-05-25 09:00:12 +08:00
    我也觉得最靠谱的就是人家下好把硬盘快递给你。。。
    LGA1150
        24
    LGA1150  
       2016-05-25 09:08:53 +08:00 via Android
    你可以试试百度云的离线下载
    “ 100M 小 ISP ”是长宽?
    LGA1150
        25
    LGA1150  
       2016-05-25 09:13:04 +08:00 via Android
    你也可以试试联通骨干网缓存服务器( 120.52.72.*)来缓存数据,不过我怀疑它能不能缓存 TB 级数据
    RqPS6rhmP3Nyn3Tm
        26
    RqPS6rhmP3Nyn3Tm  
       2016-05-25 09:30:44 +08:00 via Android
    迅雷离线…
    xunxuntj
        27
    xunxuntj  
       2016-05-25 10:08:01 +08:00 via Android
    FedEx 运 5T 数据,假设空运 3 天到,试算下带宽和代价
    mgna17
        28
    mgna17  
       2016-05-25 11:18:30 +08:00
    肉翻出去,下好再回来。。。。
    superxzr
        29
    superxzr  
       2016-05-25 13:16:32 +08:00
    @Showfom axel 暴力上线程数可以的... 我最高试过 150 线程,在不被 QoS 的情况下从美国取到了 12.6MB/s 的好速度..(我下行不够啦
    Showfom
        30
    Showfom  
       2016-05-25 18:31:39 +08:00
    @superxzr - - 可以的
    kslr
        31
    kslr  
       2017-06-10 04:15:02 +08:00 via Android
    @hicdn 哥们,你是跑了个 Windows 上传到天翼吗?
    hicdn
        32
    hicdn  
       2017-06-10 17:12:00 +08:00
    @kslr 没有,写脚本用网页上传接口上传。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2294 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 01:45 · PVG 09:45 · LAX 17:45 · JFK 20:45
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.