V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wolfzz
V2EX  ›  程序员

怎么从一句文字描述做分类?求机器学习的兄弟指点方案

  •  
  •   wolfzz · 2020-08-20 12:27:50 +08:00 · 1395 次点击
    这是一个创建于 1552 天前的主题,其中的信息可能已经有所发展或是发生改变。

    要解决一个分类问题,通过计算机从受伤情况的文字描述来判断受伤等级;

    如 输入: 某某左手食指粉碎性骨折 输出: 六级

    输入文字可能存在近义词,比如食指可以也写成第二指; 目前有一个规则集,定义了各个级别伤害指标,如六级伤害的指标,手部受伤情况,头部,腿部等等。 还有几万的案例数据。

    问下这个用什么方案识别率要好呢?

    我的思路是做一个专用词汇表,先做分词 然后做同义词词汇表,规范化输入 然后查规则集,但是不知道怎么做匹配? 或者用案例数据训练,用什么技术方案? tensorflow 可以支持类似的用词组做识别吗?

    8 条回复    2020-08-25 17:17:26 +08:00
    TimePPT
        1
    TimePPT  
       2020-08-20 13:03:16 +08:00   ❤️ 1
    典型的多分类问题,规则的话精度有保障,但召回成问题。
    如果有标签数据,可以试试 fasttext 这种开箱即用的库。
    yzc27
        2
    yzc27  
       2020-08-20 13:05:11 +08:00 via iPhone
    用 fasttext 这种低成本、开箱即用的库试试先呗
    staticor
        3
    staticor  
       2020-08-20 13:51:52 +08:00
    感觉还蛮有难度的 目前就像这个描述 也存在不同医师给出不同的定级结果。

    http://www.fyxzz.cn/fileup/HTML/FYXZZ201603012.html
    Escapist367
        4
    Escapist367  
       2020-08-24 12:01:21 +08:00
    这就是文本分类问题啊
    几万的案例数据量也够

    有标签的话可以:
    1 、先拿个 fasttext 看看效果怎么样
    2 、有显卡的话可以深度学习,比如用 bert 跑,效果肯定比 fasttext 好

    没标签的话:
    1 、几万条也不多,找几个人一起标
    2 、老老实实写规则吧
    wolfzz
        5
    wolfzz  
    OP
       2020-08-25 12:28:41 +08:00
    wolfzz
        6
    wolfzz  
    OP
       2020-08-25 12:28:56 +08:00
    @staticor 是的 这是个问题
    wolfzz
        7
    wolfzz  
    OP
       2020-08-25 13:11:39 +08:00
    @Escapist367 问下 写规则 有没有好的办法来表示规则?
    Escapist367
        8
    Escapist367  
       2020-08-25 17:17:26 +08:00
    @wolfzz

    没有吧,规则肯定会越写越复杂,然后规则的极致就是各种机器学习= =
    所以可能人工标注后去跑模型是最好的选择
    把写规则死掉的脑细胞用掉的时间拿去学模型和标数据,问题已经解决了 [血的教训]
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1425 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:26 · PVG 01:26 · LAX 09:26 · JFK 12:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.