V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gunshot
V2EX  ›  程序员

机器学习/数据挖掘应该怎么学?

  •  
  •   gunshot · 2016-03-05 18:11:20 +08:00 · 3948 次点击
    这是一个创建于 3187 天前的主题,其中的信息可能已经有所发展或是发生改变。

    正在看 《数据挖掘导论》 ,吴恩达的 CS229 。冒昧问一下 kaggle 上面的题目是什么水平?

    第 1 条附言  ·  2016-03-23 19:10:55 +08:00
    今天啃完 CS229_SVM 的 notes 和视频,其实证明部分并没有数学书严谨,讲的时候经常碰到 digression, 没必要太过关注细节。知识点还是要靠实战来巩固。
    31 条回复    2016-03-09 10:53:08 +08:00
    murmur
        1
    murmur  
       2016-03-05 19:54:39 +08:00
    能冒昧的问题一下楼主微积分、概率论和线性代数(矩阵理论)的分数么。。。
    CrazySpiderMan
        2
    CrazySpiderMan  
       2016-03-05 19:56:56 +08:00
    @murmur 哈哈, 你这个我得点赞!
    microhan
        3
    microhan  
       2016-03-05 20:55:40 +08:00
    @murmur 这个和分数有必然关系?后面再学不行?
    chlx
        4
    chlx  
       2016-03-05 21:03:29 +08:00
    如果没有比较扎实的数理基础的话, CS229 还不是那么容易上手,推荐先看完这本书 <a first course in machine learning> 入门很好的一本书,写得很 intuitive
    allan888
        5
    allan888  
       2016-03-05 21:07:12 +08:00
    @microhan 不行。。。
    knightdf
        6
    knightdf  
       2016-03-05 21:30:15 +08:00
    这东西。。。一般人用就可以了,我反正看得懂大概模型,看不懂公式,哈哈
    pandachow
        7
    pandachow  
       2016-03-05 22:00:13 +08:00
    @microhan 不太懂什么叫「必然关系」,考了 90 分的人和考了 95 分的人关系区别不大,不及格的话,关系就大。不行。
    gunshot
        8
    gunshot  
    OP
       2016-03-05 22:01:39 +08:00
    @murmur 数分&概率论算好,线代全靠自学。
    @chlx CS229 看得懂,不过有些东西需要暂停去翻书
    ltrans
        9
    ltrans  
       2016-03-05 22:09:04 +08:00 via Android
    机器学习这些如果没有比较好的数理基础……你会发现很多公式都很难推导出来。亲身学 coursera 的《机器学习基石》感受到的,不过当你推导出来会有豁然开朗的感觉,贼好玩~
    gunshot
        10
    gunshot  
    OP
       2016-03-05 22:17:27 +08:00
    @ltrans 我是读工科的,数学教育上重计算轻证明...
    ppdg
        11
    ppdg  
       2016-03-05 22:19:53 +08:00   ❤️ 2
    那就得看你是要研究学习模型本身还是研究应用了,
    研究模型本身那你的数学功底一定是极好的.
    研究应用那你就要对不同类型的模型,尤其是目前主流的一些模型的习性有一定感悟.
    楼上的很多人都感觉你是要研究模型本身.
    ltrans
        12
    ltrans  
       2016-03-05 22:36:31 +08:00 via Android
    @ppdg 的确,若只是想应用,知道什么模型得出什么结果,直接套用相关 py 库或 matlab 库,数据挖掘的话 R 语言也有专门对应的函数。
    gunshot
        13
    gunshot  
    OP
       2016-03-05 22:38:56 +08:00
    @ppdg 那就是从 Kaggle 的 playground 开始边看书边练习?
    ppdg
        14
    ppdg  
       2016-03-05 23:08:36 +08:00
    @gunshot 不了解这网站,刚去看了看,是竞赛的啊.比如那个 mnist 的手写识别.我是搞 CV 领域的,数据挖掘不是太了解.虽然很多基础模型都是一样的,但是在不同领域的应用还是有很大差别的.吴恩达的视频课程还是不错的,比你直接看书要更容易接受,直接看书容易睡着.看完那个课程再去看书事半功倍.但是那个仅仅是一个基础,距离现在前沿的方法...还是要多看 paper 的.
    奥对,如果有师兄带你的话,事半半功倍,哈哈..
    modkzs
        15
    modkzs  
       2016-03-05 23:21:04 +08:00
    其实感觉 kaggle 更偏向于 DM 而不是 DL=。=
    WildCat
        16
    WildCat  
       2016-03-05 23:22:30 +08:00 via iPhone
    去名校读个 Master
    nevin47
        17
    nevin47  
       2016-03-05 23:24:03 +08:00   ❤️ 1
    @microhan 作为正在做相关研究的表示,绝对不行
    数据研究不像做开发,遇到问题去查找相关资料,然后很多时候可以顺利解决问题
    但是数据研究时遇到问题,很难只学习相关内容然后解决问题的,主要是关联太过于复杂

    我记得你是送书的那位吧……不至于这么说吧
    gunshot
        18
    gunshot  
    OP
       2016-03-05 23:44:26 +08:00
    @ppdg CV 是计算机视觉吧?和 ML 交叉大吗?
    @WildCat 有此意
    ppdg
        19
    ppdg  
       2016-03-05 23:57:50 +08:00   ❤️ 1
    @gunshot 这不是一个层面的事儿。。。计算机视觉是个很大的研究领域,比如做分类,做语义分割,做 detection ,等等,里面肯定都会用到机器学习。现在视觉领域最火热的就是深度学习了(不只是这个领域),这个又跟传统的机器学习有很大差异。也就是说,计算机视觉是方向,是领域,机器学习是工具,是方法。很多领域都在用。
    goubenger
        20
    goubenger  
       2016-03-06 00:22:02 +08:00
    做研究或者做深入应用的话至少去读个 master 才行;
    如果是项目中简单的应用一下网上有很多针对程序员的书和教程都不错。
    green15
        21
    green15  
       2016-03-06 00:36:11 +08:00 via Android
    同求靠谱教程学习
    sleeperqp
        22
    sleeperqp  
       2016-03-06 01:05:39 +08:00
    正在看李航的统计学习 感觉还不错
    CupTools
        23
    CupTools  
       2016-03-06 04:05:30 +08:00 via Android
    最近为了写一个 spam filter 而了解到 Bayes Theorem 。然后感觉原来其实基础很重要。统计学,微积分,连矩阵都要重温。

    所以说,先把基础打好,再去想 ML
    ltrans
        24
    ltrans  
       2016-03-06 09:03:44 +08:00 via Android   ❤️ 1
    @gunshot
    其实我也是想学这些,但像前面大多数人所说的,深入学习至少要 master 。我也是工科本科,曾经的我像你一样直接忽视了数理知识直接开学~后面慢慢学下去发现,理解更深层次的知识,高等数学的推导,线性代数的矩阵运算,概率论的统计知识……=_=全都非常重要。基础不扎实你能看一个知识点一整天才能看得懂,可怜我本科没人学这些,也体会到 @ppdg 说的要有师兄带才能事半功倍。

    因此现在大三有种打算也正在做,以考研为目标打好英语,数学一和 408 基础。考上了, master 有导师有师兄,考不上,有这些基础相信努力跟上 MOOC 相关课程也能学好。
    murmur
        25
    murmur  
       2016-03-06 09:53:12 +08:00
    @microhan 读研的时候做过 NLP 的一些应用,同样数学好的,推推公式大概就知道优化那些参数了,数学不行的,公式看不懂的,就只能靠猜
    我还是应用,还不是改进,只停留在组合、优化训练集和参数上
    wangzhangup
        26
    wangzhangup  
       2016-03-06 12:45:20 +08:00   ❤️ 2
    基础课程上完了,只是入门,最重要的是要进行实际项目的历练,最好是跟团队协作,这样对自己的成长帮助非常大,最大的感受就是 deeper and deeper.
    BTW, 不要怕什么基础,也不要被吓到了就止步,没有谁出生什么都会的。基础差一点,无非学得慢点,但是绝对不会阻止你搞定。喜欢就去学, don't settle!
    gunshot
        27
    gunshot  
    OP
       2016-03-06 16:43:31 +08:00
    @ltrans 共勉,我也在复习数一
    @wangzhangup 向你看齐
    Neveroldmilk
        28
    Neveroldmilk  
       2016-03-06 22:49:55 +08:00
    去 Udacity 上看他们的课程,都是免费的,上手工具用的是 Python 。
    microhan
        29
    microhan  
       2016-03-08 10:29:30 +08:00
    @nevin47 鄙人以实践为主,虽然数理方面的根基不是很好,想通过机器学习解决一些实际问题,这方面确实遇到不少坑。后面再学不行只是针对 @murmur 的发问, 毕竟不是做研究,是要解决实际问题。分数不能决定你能用机器学习做多少事情。
    murmur
        30
    murmur  
       2016-03-08 12:32:19 +08:00
    @microhan 实际上机器学习的最基本应用随便给一个合格的程序员讲讲他就能干活,毕竟现成的类库太多了,尤其还有 svm 这种哪里都能试试的好东西,但是想稍微深入点,或者把规模做大就要数学了,都说大数据,最基本什么大数据能并行计算得有点概念吧
    nevin47
        31
    nevin47  
       2016-03-09 10:53:08 +08:00
    @microhan 我觉得你说的也很在理。
    不过在解决实际问题的过程中有时候还是需要对模型进行优化的,如果没有基础知识只是应用工具往往不一定能得到理想的结果。所以我觉得有一个比较好的数学基础是做好机器学习的先决条件,当然不是说有了好的数学基础就一定能做好 ML 了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3221 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 13:15 · PVG 21:15 · LAX 05:15 · JFK 08:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.