RangerWolf
V2EX  ›  问与答

学习了一段时间 R 之后的一个感觉: 数据挖掘的任务,应该由 R 来整理思路、创建模型,然后由其他语言来实现生产需求

  •  
  •   RangerWolf · Jun 23, 2014 · 5381 views
    This topic created in 4359 days ago, the information mentioned may be changed or developed.
    不知道这种感觉是否正确啊
    22 replies    2015-05-18 20:34:51 +08:00
    meteor2013
        1
    meteor2013  
       Jun 23, 2014
    能具体说下理由吗?
    RangerWolf
        2
    RangerWolf  
    OP
       Jun 23, 2014
    @meteor2013 因为感觉使用R进行数据分析以及可视化都非常方便,几行命令就搞定了。同样的,matlab\octave 也挺方便的,但是创建一些方法啊、调试啊以及在追求性能、代码可维护方面,貌似还是传统的语言更合适一点。。。
    求讨论,我也只接触了一些皮毛而已
    RelativeLayout
        3
    RelativeLayout  
       Jun 23, 2014 via iPhone
    用python吧,python下有很多关于数学、图像展示、机器学习、图片处理的库,虽然学习路线陡峭,但是python做的东西很快就能用到生产上。这是matlab和r没法比的。
    yelite
        4
    yelite  
       Jun 23, 2014
    之前我也是这么想的...直到今年的 kdd,把所有数据读进去就占了 6g 内存...
    现在用 ipython notebook,读取速度和内存占用都好了很多,可视化也很方便
    cbsw
        5
    cbsw  
       Jun 23, 2014
    @RelativeLayout 说 python 学习曲线陡峭的是个什么心态
    @yelite 如果处理大数据时把所有数据读进去,python 内存也差不多吧
    laoyang945
        6
    laoyang945  
       Jun 23, 2014
    我也有同感,R作为一個中间的環節不錯
    yelite
        7
    yelite  
       Jun 23, 2014
    @cbsw
    csv 文件的总大小在 3G 左右
    python 用的是 pandas 的 read_csv
    R 用的是 read.csv

    python 4148M

    rsession 6684M

    还有一点,python 读取花了两分钟左右,R 居然用了将近二十分钟
    wb13
        8
    wb13  
       Jun 23, 2014
    如果用Python的话,pandas确实非常好用
    qian19876025
        9
    qian19876025  
       Jun 23, 2014
    真专业的那群人 别个都是用SPSS Matlab 之类的
    RangerWolf
        10
    RangerWolf  
    OP
       Jun 23, 2014
    @RelativeLayout python我没用来做过ML之类的事情,不知道在可视化、图表以及统计方面表现如何? R的性能之前也听别人说过,可能底层需要推倒重来提高性能。。。

    @qian19876025 你说的专业是指哪方面? 比如在阿里巴巴做用户行为分析,是否属于你说的“专业”方面? 我对类似用户行为分析、金融风险预测这方面比较刚兴趣~
    Josephpeng
        11
    Josephpeng  
       Jun 23, 2014
    @qian19876025
    SPSS 都是些坑爹的市场调研机构在用。
    R 是made by statistician, for statistician.
    Matlab应用数学,工程方面比较常见。

    R血统最纯正!
    qian19876025
        12
    qian19876025  
       Jun 23, 2014
    @Josephpeng 晕死 什么血统论都来了

    matlab 别个的库 R根本没有
    R 是怎么火起来的 如果不是因为不要钱 谁用啊

    你看看那些写论文的 用的是什么工具 以前几乎清一色的matlab 之类的
    SPSS 为什么被IBM收购 还不就是因为以前做统计的那群人一直在使用

    说好听点R是开源 说不好听点因为没钱的人太多了
    @RangerWolf 做数据分析 ML 统计 基本上好多R都靠不上边 只不过现在使用R的人多了点而已
    Todd_Leo
        14
    Todd_Leo  
       Jun 23, 2014
    @qian19876025 说说看matlab什么库R没有呢?
    xunyu
        15
    xunyu  
       Jun 23, 2014
    把数据放在内存中不是个办法,spark才是王道,r的实时交互没有python好
    RangerWolf
        16
    RangerWolf  
    OP
       Jun 23, 2014
    @xunyu spark 不也是放在内存之中吗? 没用过,听说是这样
    xunyu
        17
    xunyu  
       Jun 23, 2014
    @RangerWolf spark是分布式的,多台电脑构建一个集群,数据分布在多台电脑内存中了,最夸张的是主页上显示的迭代的运算可以快10+倍
    Josephpeng
        18
    Josephpeng  
       Jun 23, 2014
    @qian19876025 念了4年统计,今天受教了。
    RangerWolf
        19
    RangerWolf  
    OP
       Jun 23, 2014
    @xunyu 了解了~ thx
    13k
        20
    13k  
       Sep 13, 2014   ❤️ 1
    入时尝试使用一些参数(nrows、comment.char、colClasses等)或者看看data.table包。R的package真是越来越多而且很方便,比如大神Hadley Wickham的一系列包,当然也有Spark提供的R接口包SparkR。。。
    ocsdev
        21
    ocsdev  
       Dec 10, 2014
    pandas是python数据分析的神器,欢迎加入pandas专业QQ群:297882961
    chengzhoukun
        22
    chengzhoukun  
       May 18, 2015 via Android
    传统的统计方面的活都是SAS在做,语法比Matlab还简单一些。
    互联网公司还是Python多一些,
    R在大学多一些
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3081 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 67ms · UTC 03:17 · PVG 11:17 · LAX 20:17 · JFK 23:17
    ♥ Do have faith in what you're doing.