V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
HFX3389
V2EX  ›  程序员

现在爬虫是越来越难做了嗷

  •  
  •   HFX3389 · 2021-03-08 18:56:25 +08:00 · 5004 次点击
    这是一个创建于 1388 天前的主题,其中的信息可能已经有所发展或是发生改变。

    中午接到一个关于 ETC 的诈骗个人信息的网站,刚刚用电脑试了一下,结果发现这破网站数据没做验证、域名今天刚刚注册、ASP 网站

    这我就来劲了啊,当即我就找了以前注册过的某个提供代理 IP 的网站,以前还可以每天免费直接提取 20 个 IP,塞假数据够用了

    结果今天刚一登录想领取,就发现领取 IP 需要实名认证了...

    起初我还以为仅仅是这个网站需要,然后我就去找了另两家,注册了账号后发现,还是需要实名认证...

    我本身不做爬虫,也很久没登录过这网站了,发这帖子也只是想打两行字而已

    说实话,要实名也已经拿到手机号了还要身份证...我主要还是信不过这些提供代理 IP 的公司,为啥阿里云没有提供代理 IP 咧(难道要开台 ECS ?那我还是放弃吧:(

    19 条回复    2021-08-18 09:48:30 +08:00
    Jooooooooo
        1
    Jooooooooo  
       2021-03-08 18:57:06 +08:00
    爬虫容易坐牢.
    chendy
        2
    chendy  
       2021-03-08 18:59:39 +08:00
    代理 ip 除了爬虫还有其他场景需要么?
    wpyfawkes
        3
    wpyfawkes  
       2021-03-08 19:02:22 +08:00
    爬虫搞得好.要么一辈子衣食无忧,要么一辈子衣食无忧.
    koast
        4
    koast  
       2021-03-08 19:49:38 +08:00 via Android
    http/https/sock 类型的代理是不好找了,可是别的类型的,公开的倒是还挺多的,缺点是没有中国大陆 ip 的
    ijrou
        5
    ijrou  
       2021-03-08 20:18:19 +08:00
    爬虫是灰色地带,不要做违法犯罪的事儿。
    手机号虽然是已实名,但是手机号冒用或者假身份注册的太严重了...
    kingfalse
        6
    kingfalse  
       2021-03-08 20:53:25 +08:00 via Android
    本人爬虫,现已失业
    tikazyq
        7
    tikazyq  
       2021-03-08 20:54:50 +08:00
    不是难做,而是易坐
    winnerczwx
        8
    winnerczwx  
       2021-03-09 03:23:34 +08:00   ❤️ 2
    因为用代理 ip 绕过服务器反爬虫是属于违法的, 前段时间看过一个因此判刑的案例

    案例里除了代理 ip, 还使用了打码平台, 对接打码平台绕过反爬虫也属于违法的

    很久以前还看到过使用自定义 UA 的被判的案例

    太难了
    HFX3389
        9
    HFX3389  
    OP
       2021-03-09 08:59:52 +08:00
    @winnerczwx #8
    "代理 ip 绕过服务器反爬虫是属于违法""因此判刑",那这些公司不就是"提供侵入、非法控制计算机信息系统程序、工具罪"了嘛.....

    注册的用户只要领取过 IP 就是潜在的可以判刑的人员.......

    想想就受不了
    IvanLi127
        10
    IvanLi127  
       2021-03-09 09:29:13 +08:00
    @HFX3389 我想到了菜刀
    winnerczwx
        11
    winnerczwx  
       2021-03-09 09:36:50 +08:00
    @HFX3389
    "注册的用户只要领取过 IP 就是潜在的可以判刑的人员......."

    还好吧, 收敛点, 别爬体量大的公司, 别给人家造成损失, 人家可能都发现不了...

    你喂数据给诈骗网站不需要用代理 ip 吧, 它又不受法律保护, 你给他炸了都没事
    gzg1023
        12
    gzg1023  
       2021-03-09 09:51:24 +08:00
    非法入侵计算机系统罪,在法律还不完善的情况下,当做口袋罪判也不是不可能
    inktiger
        13
    inktiger  
       2021-03-09 11:14:28 +08:00
    代理 IP 自建比较好,用拨号 vps,10 台可切成千上万个 ip,多妥的
    la2la
        14
    la2la  
       2021-03-09 13:53:47 +08:00
    现在对知识的保护越来越强了,很多商业公司有价值的东西,比如,电商网站数据,点评网站评论数据等都是有专门的团队了做反爬虫,而绝大部分的爬虫基本不会配个专业团队来做吧。而 ZF 这些公开的数据大学实习生就能爬了,有没有经验都无所谓,当时我也是爬虫找到第一份工作,但是半年之后就转到数据分析,然后转到大数据方向了。感觉爬虫的前景我是不太看好
    Masterlxj
        15
    Masterlxj  
       2021-03-09 16:26:11 +08:00
    是啊,爬虫太难了
    TimeRain
        16
    TimeRain  
       2021-03-11 02:02:50 +08:00 via Android
    爬虫是离吃牢饭最近的一步了
    zhao372716335
        17
    zhao372716335  
       2021-03-11 11:03:47 +08:00
    做爬虫,爬的慢没事,做飞虫就可以吃国家粮了 /。
    revskill
        18
    revskill  
       2021-08-04 21:14:25 +08:00
    @inktiger 求推荐博号 vps
    inktiger
        19
    inktiger  
       2021-08-18 09:48:30 +08:00
    @revskill 之前用过一个老兵数据的,还不错,他们的动态 ip 服务器就可以任意切,不过还是得自己做一些稳定性操作,比如开个任务一直监测一下代理是不是能用,有时候服务器也会自己卡死,得操作重启,可能是我选的配置太低的原因
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2870 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 14:50 · PVG 22:50 · LAX 06:50 · JFK 09:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.