V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
graetdk
V2EX  ›  分享创造

我们做了一个在线词云小工具

  •  
  •   graetdk · 2017-09-07 11:38:58 +08:00 · 12157 次点击
    这是一个创建于 2667 天前的主题,其中的信息可能已经有所发展或是发生改变。

    为什么要做这样一个小工具呢?最大的一个原因就是,我要用。

    写文章也好,做一些自然语言分析也好,词云在很多时候是必不可少的,一方面它挺好看,一方面,它以非常直观的方式让我看到最核心的关键点。

    在此之前,我并没有找到这样一个工具,能够让我轻松的得到好看的词云图。有的工具能够做出挺好看的词云图,但是太难用了,注册登录验证手机号,设置纬度设置数值,还要导入一大堆东西,最后才能看到我要的图。有些工具倒是很简单(比如知乎很多人推荐的 Wordle 等),但是出来的效果,惨不忍睹。

    我想要的非常简单,就是把长文本放进来,你给我数据和图表,并且,稍微好看一点。

    基于上面的需求,我们做了一个词云小工具:NiucoData·词云小工具

    这个小工具的特性就是,简单,好看。我们并没有做太花哨的功能,例如自定义形状什么的,对于数据分析而言,这根本没什么卵用。

    打开(无需登录,注册),复制文本,点击按钮

    词性统计

    不同词性的词频

    可轻度编辑,实时生成的词云图

    PS:我们自己实现了一个分词系统,分词的效果应该比市面上绝大多数免费产品要好一些

    希望能帮到对数据分析有需求的同学:纽扣词云

    37 条回复    2019-05-17 14:43:29 +08:00
    codinm
        1
    codinm  
       2017-09-07 11:52:56 +08:00
    怎么实现的、
    qiayue
        2
    qiayue  
       2017-09-07 11:59:05 +08:00
    用了一下很不错
    qiayue
        3
    qiayue  
       2017-09-07 12:00:57 +08:00
    有人问能不能画上等高线,方便看
    yunkchen
        4
    yunkchen  
       2017-09-07 12:22:07 +08:00
    jeffson
        5
    jeffson  
       2017-09-07 12:57:00 +08:00
    怎么做的?
    50vip
        6
    50vip  
       2017-09-07 13:21:00 +08:00
    这个接口是什么?

    http://123.206.62.247/wordcloud/
    graetdk
        7
    graetdk  
    OP
       2017-09-07 13:34:48 +08:00 via Android
    @50vip 我们的服务器
    graetdk
        8
    graetdk  
    OP
       2017-09-07 13:35:59 +08:00 via Android
    @yunkchen 这个是纯粹为了样式,对数据分析基本没用
    touzi
        9
    touzi  
       2017-09-07 13:36:12 +08:00
    用不了
    cuebyte
        10
    cuebyte  
       2017-09-07 13:41:36 +08:00
    用不了 + 1
    graetdk
        11
    graetdk  
    OP
       2017-09-07 13:43:46 +08:00
    @cuebyte 稍等一下,好像没想到会有这么多人用,服务器宕掉了 Orz
    cuebyte
        12
    cuebyte  
       2017-09-07 13:52:48 +08:00
    @graetdk 額,這個帖子目前也就 300+瀏覽量
    aurora1625
        13
    aurora1625  
       2017-09-07 13:54:35 +08:00
    不支持英文吗?随便丢了一个英文文本,词云没有显示
    graetdk
        14
    graetdk  
    OP
       2017-09-07 13:56:33 +08:00
    @cuebyte 我还在其他地方发了一下~
    graetdk
        15
    graetdk  
    OP
       2017-09-07 13:58:17 +08:00
    @aurora1625 英文都过滤了(英文的词云工具已经有不少了)


    @cuebyte PS:已经好了
    polythene
        16
    polythene  
       2017-09-07 14:38:29 +08:00
    楼主用的什么 UI,挺漂亮的
    graetdk
        17
    graetdk  
    OP
       2017-09-07 14:47:12 +08:00
    @polythene 没有用框架,自己做的
    inmyfree
        18
    inmyfree  
       2017-09-07 16:03:42 +08:00
    刚刚试了一下,把一个大概 2M 的文本考进去,额,结果死了。。。。
    w7938940
        19
    w7938940  
       2017-09-07 16:10:24 +08:00
    SuAlien
        20
    SuAlien  
       2017-09-07 16:13:31 +08:00
    挺不错的
    graetdk
        21
    graetdk  
    OP
       2017-09-07 16:22:34 +08:00
    @inmyfree 2M 应该过百万字了~那实在是有点多了,我们目前十几万字应该没问题
    Thiece
        22
    Thiece  
       2017-09-07 16:53:33 +08:00
    @graetdk 希望能提供上传文件的方式,如果因为数据内容过多非及时展示也没关系,列队处理然后发送到用户邮箱的方式,或则生成一个唯一链接。
    另外如果可以和你家的主线产品联动分析实用性会得到提升。
    再接下来就是分析网站或者指定链接内容数据了。
    然后就是收集用户分析的数据进行数据分析。
    完美!
    rebill
        23
    rebill  
       2017-09-07 17:03:08 +08:00
    要是能增加一下感情色彩就好了
    dreamwar
        24
    dreamwar  
       2017-09-07 17:06:55 +08:00
    挺好用的
    graetdk
        25
    graetdk  
    OP
       2017-09-07 17:10:15 +08:00
    @Thiece 你的需求这么旺盛?!
    ETO
        26
    ETO  
       2017-09-07 17:29:14 +08:00
    @graetdk
    @Thiece 哈哈哈哈
    graetdk
        27
    graetdk  
    OP
       2017-09-07 17:29:14 +08:00
    @rebill 是指情感判断吗?
    yiwanGwan
        28
    yiwanGwan  
       2017-09-07 17:30:43 +08:00
    会写文章的程序员,了不得
    Thiece
        29
    Thiece  
       2017-09-07 18:19:18 +08:00
    @graetdk 上传文件分析和列队处理这个需求真的可以考虑一下。论文方面使用可以有参考价值。
    Thiece
        30
    Thiece  
       2017-09-07 18:21:52 +08:00
    @graetdk 服务器处理速度有限,再处理较多数据的时候,让用户等待一个 loading 圈真的很不礼貌,并且会失去耐心。
    cncqw
        31
    cncqw  
       2017-09-08 00:50:29 +08:00


    资瓷一个
    graetdk
        32
    graetdk  
    OP
       2017-09-08 09:19:14 +08:00
    @Thiece 我们后期可能会考虑推整体的高级服务,可能就会支持大文本的异步处理
    josherich
        33
    josherich  
       2017-09-08 13:45:03 +08:00
    词云中的代词,数次,介词等似乎作用较小,可以选择忽略;另外除了词频,可以用一些 topic modelling 方法计算权重。
    my3157
        34
    my3157  
       2017-09-08 15:52:33 +08:00
    413 Request Entity Too Large
    luili
        35
    luili  
       2017-09-11 08:00:33 +08:00
    试用了下 很不错
    LeonKennedy
        36
    LeonKennedy  
       2019-05-17 10:05:47 +08:00
    谷歌过来的。都是两年前了。前端用的什么开发的,样式挺好看的
    graetdk
        37
    graetdk  
    OP
       2019-05-17 14:43:29 +08:00
    @LeonKennedy 自己做的,前端没有用轮子
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4601 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 04:03 · PVG 12:03 · LAX 20:03 · JFK 23:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.