V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
clockwork1122
V2EX  ›  问与答

提取音频或者视频为文字信息有什么好办法吗?

  •  
  •   clockwork1122 · 232 天前 · 1203 次点击
    这是一个创建于 232 天前的主题,其中的信息可能已经有所发展或是发生改变。

    平时比较喜欢听一些播客或者是看些知识型的视频想记录文字,是否能有工具满足两个场景。

    1. 边听(看)边输出文字
    2. 输入音频或者视频链接,自动输出文本。 (现在同传或者是 AI 字幕都很成熟,有现成工具还是需要调大厂的 API 自己实现呢
    9 条回复    2023-09-11 15:02:23 +08:00
    qquantt
        1
    qquantt  
       232 天前
    提取音频或视频为文字信息,通常被称为“语音识别”或“自动语音转录”。以下是一些常用的方法和工具:

    专业转录服务:有些公司提供专业的转录服务,如 Rev 和 TranscribeMe 。这些服务通常提供高精度的转录,但可能需要支付费用。

    自动转录软件:

    1. Google Cloud Speech-to-Text:这是一个基于云的 API ,可以将音频和视频转换为文字。
    2. IBM Watson Speech to Text:IBM 的语音识别服务也提供了类似的功能。
    3. Amazon Transcribe:Amazon 的自动语音转录服务。
    桌面软件:如 Dragon NaturallySpeaking ,它是一个语音识别软件,可以将说话的内容转化为文字。

    免费工具:

    1. YouTube:你可以上传视频到 YouTube ,然后开启自动生成字幕功能。之后,你可以下载这些字幕作为文本文件。
    2. Audacity:这是一个免费的音频编辑软件,它有一些插件可以进行简单的语音识别。
    3. 手机应用:有些手机应用如 Otter.ai ,可以实时转录会议或对话。

    4. 专用硬件:如专业的数字录音笔,有些模型带有自动转录功能。科大讯飞的耳机可以。

    5. 开源工具:如 CMU Sphinx ,这是一个开源的语音识别系统,适合于那些希望自定义或集成到自己的应用中的开发者。

    选择哪种方法取决于你的需求、预算和所需的准确性。对于正式的商业或法律文件,可能需要专业的转录服务以确保准确性。而对于日常使用或草稿,自动转录工具或应用可能已经足够了。
    kdwnil
        2
    kdwnil  
       232 天前 via Android   ❤️ 1
    看起来 op 的需求是语音转文字?有个东西叫 openai/whisper ,我记得前段时间有 v2 老哥分享过基于这玩意做的工具
    Andim
        3
    Andim  
       232 天前 via iPhone
    @kdwnil 中文错误率太高 正确率可能也就 80%多
    fyq
        4
    fyq  
       232 天前   ❤️ 1
    和你的诉求稍微有点点出入:
    https://github.com/raryelcostasouza/pyTranscriber
    可以将你要的音视频转为 mp3 后导入得到文本
    ZeroW
        5
    ZeroW  
       232 天前 via iPhone
    通义听悟挺好用的
    jancing
        6
    jancing  
       232 天前   ❤️ 1
    1. Microsoft 365 Word
    2. Adobe Speech to Text in Premiere Pro
    rpish
        7
    rpish  
       231 天前   ❤️ 1
    飞书妙记
    unii23i
        8
    unii23i  
       231 天前
    clockwork1122
        9
    clockwork1122  
    OP
       229 天前
    @jancing 感谢我试试
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4069 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 04:12 · PVG 12:12 · LAX 21:12 · JFK 00:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.