V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
aozhou
V2EX  ›  职场话题

请问爬虫可以转什么方向?转岗所需要的工作经验如何获得?

  •  
  •   aozhou · 344 天前 · 2857 次点击
    这是一个创建于 344 天前的主题,其中的信息可能已经有所发展或是发生改变。
    做了几年爬虫,感觉这个终究不是长久之计。
    不仅现在反爬方式越来越多种多样,难度直线上升,更主要的是,终究不算比较正当的方向,付出太多努力感觉不值得。
    不知道 v 友有什么建议。
    42 条回复    2023-12-18 18:04:03 +08:00
    ospider
        1
    ospider  
       344 天前
    LLM 风口来了,你倒要跑了
    aozhou
        2
    aozhou  
    OP
       344 天前
    @ospider 主要是总觉得不算什么正当技术,搞得太狠风险挺高
    evil0harry
        3
    evil0harry  
       344 天前
    ->反爬虫
    ->web 安全
    ->全栈开发
    NoOneNoBody
        4
    NoOneNoBody  
       344 天前
    爬虫确实风险很大,但爬虫技术则是一个长久技能
    爬虫包含获取和分析,后者可以用到各种大数据方面(数据分析前置就是数据获取),举例子 X 也要分析自家的所有推文
    前者则可以走向网络方面,当然需要分布式方面技能,如果仅仅是单机爬虫爬取,就算做得很好也会被淹没,因为懂的人太多
    aozhou
        5
    aozhou  
    OP
       344 天前
    @evil0harry 日常不做这些工作的话,影响转岗的时候面试么?还是说自己业余做一些也行
    aozhou
        6
    aozhou  
    OP
       344 天前
    @NoOneNoBody 感觉数据分析和爬虫还是不太相关的,最多算一般缺数据的公司的前置工作
    yifangtongxing28
        7
    yifangtongxing28  
       344 天前
    爬虫不是都在往模拟人点击行为在走吗,这种还挺有意思的,纯接口的反扒机制已经限制死了
    NoOneNoBody
        8
    NoOneNoBody  
       344 天前   ❤️ 3
    @aozhou #6
    如果看到“数据分析”,你只想到“分析”、计算这些,那确实没什么关系
    但数据分析首先要有数据,不能凭空创造,这个获取过程称为采样,采样是有专门《采样学》的,就是一大堆数据,哪些是包含有效信息的,哪些是只有无效信息的,要做筛选,说俗一点就是数据海选,试想一下,扔一堆 html 给分析人员会不会被骂死?当然是前置工作,没数据也无法分析
    采样有多种途径,目前来说,网络采样是成本较低的一种

    你要扩大思维,数据海选不一定就是“爬”外网,例如有个目录里面上亿个富文本,如何通过海选提取“有效数据”,如去掉广告,去掉无关的一些内容,保留主要的文章、对话、图片、表格……这些都是爬虫“爬后”的工作,总不会爬虫爬取结束后,一个字节都不动照搬显示吧?
    再用上述例子,一亿个 html ,但分析部门要求只用五千万,至于为什么就不用纠结了,可能因为硬件所限,可能因为时间所限等等,一亿筛走一半,要说出个所以然,为什么那去掉的五千万是“没用的”,根据什么理论筛掉,随机么?这就是采样学要做的工作。分析部门中需要有人做这种粗活,分析师是不管这些的,如果分析过程发现样本“不合格”,是需要打回头重新采样的
    freshgoose
        9
    freshgoose  
       344 天前
    爬虫接外包都挺贵的,而且活比较轻松
    auh
        10
    auh  
       344 天前
    爬虫最贵了。学好了,将来灰产的干活。
    aozhou
        11
    aozhou  
    OP
       344 天前
    @NoOneNoBody 受教了,非常感谢~
    aozhou
        12
    aozhou  
    OP
       344 天前
    @auh 呃~就是因为不想这么灰
    levelworm
        13
    levelworm  
       344 天前 via Android
    @auh 感觉破解这块还是太难了
    bequt
        14
    bequt  
       344 天前
    爬虫总是在刀尖上舔血。
    dearmymy
        15
    dearmymy  
       344 天前
    爬虫技术栈挺尴尬的。逆向安全里也是鄙视链底端,那点 js 水平前端也看不上。
    Dart
        16
    Dart  
       344 天前
    遵守 robots.txt 就行了啊
    levelworm
        17
    levelworm  
       344 天前 via Android
    @dearmymy 软件逆向里最高端的是啥?估计是工业上的玩意?还是病毒木马这些。
    fox0001
        18
    fox0001  
       344 天前 via Android
    深度学习,考虑下
    dayeye2006199
        19
    dayeye2006199  
       344 天前 via iPhone
    大模型的数据团队
    dearmymy
        20
    dearmymy  
       344 天前
    @levelworm 二进制逆向里,觉得 vmp ,驱动保护之类,现在移动端反调试,llvm 混淆之类。主要网页爬虫,天花板太低了。
    lasuar
        21
    lasuar  
       343 天前
    可以转后端,比如学习 Go 语言。我早年就是干爬虫的,深知这行深入极难,所以也转了。
    chi1st
        22
    chi1st  
       343 天前
    如果把 JS 逆向和 APP 逆向玩的比较深的话,应该也挺不错的吧,不会有什么年龄的顾虑,就是风险大
    aozhou
        23
    aozhou  
    OP
       343 天前
    @levelworm 是啊,就是学到精深会涉及多个方向,就感觉与其费这么大劲还是灰色的,还不如直接光明正大换个其他方向
    aozhou
        24
    aozhou  
    OP
       343 天前
    @dearmymy 是的,因为涉及的面太宽了,不太可能没个方向都搞通。搞通了也就没必要搞爬虫了
    aozhou
        25
    aozhou  
    OP
       343 天前
    @dayeye2006199 那这样的话还是做爬虫的吧?
    aozhou
        26
    aozhou  
    OP
       343 天前
    @lasuar 请问你是怎么转的?日产工作内容都是爬虫,感觉也没什么机会做后端。自己做些项目的话,去面试不知道对方会不会认,工资应该也会断崖吧?
    yangzhezjgs
        27
    yangzhezjgs  
       343 天前
    可以先学学日志采集的技术栈,这个方向与爬虫相近,找相关工作经验不会白费,再找机会慢慢过度到后端
    triangle111
        28
    triangle111  
       343 天前
    先学一些采集框架的思路,各种中间件学着使用,然后慢慢写后端 code ,推荐转 go 后端
    aozhou
        29
    aozhou  
    OP
       342 天前
    @yangzhezjgs 日志采集的相关岗位名称叫什么
    aozhou
        30
    aozhou  
    OP
       342 天前
    @triangle111 之前也听人说过转 go ,请问为什么爬虫转 go 比较好?还是因为 go 比较新,大家都差不多,所以想转的话转 go 比较好?
    yangzhezjgs
        31
    yangzhezjgs  
       342 天前
    @aozhou 一般这种岗位偏向于运维开发或者数据平台,可参考这个 https://www.zhipin.com/job_detail/47eed5f0a56e5ba81XJy3dq1FlFW.html
    aozhou
        32
    aozhou  
    OP
       342 天前
    @yangzhezjgs 好的,谢谢
    la2la
        33
    la2la  
       342 天前
    我是 18 年毕业入行做的爬虫后来跟你的感觉一样加上当年有一家爬虫公司连程序员到老板一起进去了所以决定转方向,可以分享一下我的转行路线,爬虫->学习 python 处理清洗数据转到数据分析->学习 Hadoop 相关组件转到大数据分析->学习实时处理现在在做实时数据处理方向
    aozhou
        34
    aozhou  
    OP
       342 天前
    @la2la 请问你当初是怎么换的工作,没有数据分析的工作经历的话?
    lasuar
        35
    lasuar  
       342 天前
    @aozhou #26 直接从 web 项目开始练手,根据学习偏好决定看视频还是文字教程,完整写几个后端项目;再系统学习以下 TCP/UDP/Websocket/HTTP 这些协议知识就基本可以了。
    aozhou
        36
    aozhou  
    OP
       342 天前
    @lasuar 去面试会不会因为没有实际工作经验,被嫌弃~
    lasuar
        37
    lasuar  
       342 天前
    @aozhou #36 会,投十家可能会遇到三四家,剩下的应该都是认为你基础不行的。所以,别说那些有的没的,下来多花时间。走过这条路的人太多,不用担心白费功夫。
    la2la
        38
    la2la  
       342 天前
    @aozhou 不一定要换工作啊,比如你爬完数据肯定是要清洗分析的吧,你可以在本公司做这些事情啊
    aozhou
        39
    aozhou  
    OP
       342 天前
    @la2la 换岗么?
    aozhou
        40
    aozhou  
    OP
       342 天前
    @lasuar 嗯嗯 谢谢
    triangle111
        41
    triangle111  
       342 天前
    @aozhou 爬虫不是都会要求并发和调度那些,go 对这些有优势。如果参与一些爬虫框架设计这样方便转后端,而且 go 前景也还可以的,趁现在学校没教还好转一些
    aozhou
        42
    aozhou  
    OP
       342 天前
    @triangle111 好的,谢谢指点
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3598 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 04:56 · PVG 12:56 · LAX 20:56 · JFK 23:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.