V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
bright0908
V2EX  ›  Python

小白求推荐人工智能学习路线和教程

  •  
  •   bright0908 · 305 天前 · 4234 次点击
    这是一个创建于 305 天前的主题,其中的信息可能已经有所发展或是发生改变。
    原本是 Java 开发,公司因业务转型,打算做大模型、人工智能方面,各位有没有这方面的学习路线和资料推荐下
    25 条回复    2024-02-26 13:56:47 +08:00
    crazychang
        1
    crazychang  
       305 天前   ❤️ 4
    bright0908
        2
    bright0908  
    OP
       305 天前
    @crazychang #1 老哥,直接秒回啊😨
    shinyzhu
        3
    shinyzhu  
       305 天前
    我也在开始深入学习。先推荐两个小课程,全免费。AI for Everyone 和 Generatve AI for Everyone
    bright0908
        4
    bright0908  
    OP
       305 天前
    @crazychang @shinyzhu 多谢两位
    murmur
        5
    murmur  
       305 天前   ❤️ 2
    你们公司的大模型就用程序员转行做

    那不是尾气都吃不着 啥公司啊
    shinsekai
        8
    shinsekai  
       305 天前
    现在再看吴恩达机器学习和深度学习会不会太老了
    Ricardoo
        9
    Ricardoo  
       305 天前
    @shinsekai 机器学习可以先不看,先看深度学习。啥时候闲下来再往回补,机器学习的各种经典算法大模型基本不用
    dustookk
        10
    dustookk  
       305 天前
    本公司如果没有大量的用户数据需要 “训练”, 我理解是不是掌握 Openai 的 embedding 各类 API 就行了。
    stimw
        11
    stimw  
       305 天前 via Android   ❤️ 4
    楼上有些离谱的。

    在职、转型的就不要从 machine learning 开始看了。看 deep learning 甚至看看现成 api docs 才是正确的。。

    老老实实当调包侠...
    L13
        12
    L13  
       305 天前   ❤️ 1
    先让公司准备好足够的显卡和数据,不然就面向 API 变成就行了
    ShadowPower
        13
    ShadowPower  
       305 天前   ❤️ 3
    建议快速过一眼:
    https://zh.d2l.ai/

    了解其中的概念即可。
    然后直接找一些项目代码看看。
    bright0908
        14
    bright0908  
    OP
       305 天前
    @murmur #5 目前我们部门是做 Java 产品,但是这个产品前几年还能接到项目,现在已经很难接到项目了,所以打算转型,我也很疑惑为什么不把我们开了,重新招专门搞人工智能的😂
    bright0908
        15
    bright0908  
    OP
       305 天前
    @dustookk #10 公司从之前项目积累了很多数据,所以才考虑做这方面的内容
    LLLeo
        16
    LLLeo  
       305 天前
    收藏了,最近也在准备了解这方面的知识
    snowflake007
        17
    snowflake007  
       305 天前
    我们刚上了一个端云结合的项目。手机很多 AI 都是端云结合
    ShadowPower
        18
    ShadowPower  
       305 天前
    @murmur 是这样的,市面上很多“算法工程师”其实都是价格贵的同时工程能力一般,适合搞科研。
    但是目前大模型,如果想在模型架构上优化的话,研究成本极高。

    实际上大模型的路径依赖的现象很严重。大家都倾向于直接在前人尝试过的最好的模型上训练。

    最后比拼的是,谁的数据质量更高(可以是专注于某个领域的数据),以及谁可以搞定多机训练。

    里面最主要的问题其实是:如何充分利用多机算力,规避性能瓶颈;如果机器发生了故障,如何不影响训练进程。
    NoOneNoBody
        19
    NoOneNoBody  
       305 天前
    我是从人脸识别开始的……
    机器学习可以不看,但 numpy ,pandas 还是要懂,无论什么学习,整理数据还是必须的,你不能靠 for 来完成数据处理
    机器学习可以不看,但 sklearn 文档还是该知道怎么查,sklearn 的文档比较有用

    ps: python 的类型问题烦死人,float32 和 float64 没指定好,都能导致 pytorch 跑不起来
    hardto
        20
    hardto  
       305 天前
    @bright0908 说说业务场景
    NoOneNoBody
        21
    NoOneNoBody  
       305 天前   ❤️ 1
    好多模型人家都弄好了,写个程序其实不难,不怕见笑,我只会抄
    例如 sklearn AgglomerativeClustering 聚类核心代码就两行
    agglomerative = AgglomerativeClustering(n_clusters=n_clusters)
    clusters = agglomerative.fit_predict(scaled_weighted_features)
    但是大量的工作是怎么整理数据符合 fit_predict 的要求,还有就是跑一次可能很耗时,如果结果不理想,就要重新组织数据再一次,再一次,再一次……

    更多的工作在查错,因为数据量太大,你搞不清是哪一个样本出错的,或者是怎样的错误
    例如跑着跑着断了,报错是维度不一致,想维度问题其实是想不通的,一般数据都是批量处理的,不会出现单个数据维度异常,其实更大可能是某个数据为空或者 np.nan ,模型优先“检查维度”导致报错是维度不一致
    原始数据不为空,但一些转换处理会导致部分变为空,例如 rolling 移动窗口首尾有窗口不够的问题,diff 左右值求差必然少一个,过滤数据后忘了“补齐”或“对齐”……诸如此类

    还有前面说的 float 类型的事,数据没错,程序逻辑也没错,就是跑起来就报错,因为 pytorch 默认 float32 ,但 numpy 默认 float64……破,搞了我几个小时,一直以为数据错了
    如果用到 numba 加速的话,类型也是大问题

    个人建议 numpy/pandas 还是要熟,有批量转换和查找的能力,“查找”就是定位,找到哪一行哪一列的数据

    我近半年写的代码,写出来都是很快,随机模拟生成数据都能跑,就是用实际数据就断,估计近半时间都是在花类型的查“错”上
    bright0908
        22
    bright0908  
    OP
       305 天前
    @hardto #20 主要是给矿上做的产品,类似于盘古大模型这种
    bright0908
        23
    bright0908  
    OP
       305 天前
    @ShadowPower #13 好的,多谢老哥
    bright0908
        24
    bright0908  
    OP
       305 天前
    @NoOneNoBody #21 收到😺,多谢老哥给的经验
    dayeye2006199
        25
    dayeye2006199  
       305 天前
    学好英语,好好做 prompt
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5356 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 09:20 · PVG 17:20 · LAX 01:20 · JFK 04:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.