V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
mylastfire
V2EX  ›  问与答

请问 V 友,语音转文字的事情。

  •  
  •   mylastfire · 2023-12-08 09:50:20 +08:00 · 1262 次点击
    这是一个创建于 378 天前的主题,其中的信息可能已经有所发展或是发生改变。
    工作需要,经常要把语音讲话转为文字。想请教大家,一是自己搭建个语音转文字的服务,是用 Whisper 模型搭建吗,准确率能达到多少?二是和使用录音笔自带的转文字功能相比,哪个准确度更高一点?三是因为讲话人也就是固定的三五个人,能否进行模型训练,用什么来训练?四是成本大概是多少呢?谢谢。
    7 条回复    2023-12-08 15:55:53 +08:00
    charlestang
        1
    charlestang  
       2023-12-08 10:18:22 +08:00
    如果是中文的话,尤其夹杂方言的话,可以用科大讯飞的录音笔。自带终身免费的转文字方案(成本就是个录音笔的钱)。如果涉及到外语,可能只能选 Whisper 之类的东西了
    mylastfire
        2
    mylastfire  
    OP
       2023-12-08 11:30:47 +08:00
    @charlestang 感谢。不想为了工作花自己的钱,哈哈。如果自己搭建,还能干点别的事。
    xmuli
        3
    xmuli  
       2023-12-08 13:36:56 +08:00 via iPhone
    阿里开源的 FunASR 实测效果也很棒,中英识别也很准确。

    采用本地 whisper 不要部署 docker 那一个版本,表现比较拉胯,且间隔短了会返回 error
    mylastfire
        4
    mylastfire  
    OP
       2023-12-08 14:32:58 +08:00
    @xmuli 收到,多谢,晚上研究一下。
    fydss
        5
    fydss  
       2023-12-08 15:26:20 +08:00
    PLAY 上面有一个语音转文字的 APP 要求科学上网
    fydss
        6
    fydss  
       2023-12-08 15:27:11 +08:00
    找到了 叫实时转写 可以试试
    mylastfire
        7
    mylastfire  
    OP
       2023-12-08 15:55:53 +08:00
    @fydss 收到,感谢,去看看。虽然我目前是倾向于自己搭建一个 哈哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5249 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 07:14 · PVG 15:14 · LAX 23:14 · JFK 02:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.