V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Sephinroth
V2EX  ›  问与答

寻找对齐文本与音频的高效解决方案

  •  
  •   Sephinroth · 2015-03-27 03:43:09 +08:00 · 2899 次点击
    这是一个创建于 3533 天前的主题,其中的信息可能已经有所发展或是发生改变。

    [需求]
    输入:一篇文本,一段与该文本对应的音频
    输出:文本中的每一个句子的开始与结束在音频中所对应的时间点

    [已知信息]
    1. 最笨的方法:人肉对照文本和音频,把每个时间点手动记下来。
    2. 存在貌似具有一定精度的自动对齐工具(但只支持英文): http://fave.ling.upenn.edu/usingFAAValign.html

    [提问]
    1. 是否有现成的工具可帮助提高上述“笨方法”的效率?譬如:背景播放该音频,在听到每个句子的开始和结束时按某个键“打点”;可回听之前打过的点并修改之;最后输出每个“点”所对应的时间。
    2. 是否存在支持除英语外其他语种的自动对齐工具?粗略搜了下日语和德语的,暂未找到。

    //bow

    9 条回复    2015-03-31 23:58:11 +08:00
    Sephinroth
        1
    Sephinroth  
    OP
       2015-03-27 06:32:49 +08:00
    发现在windows下或可使用如下软件让“笨方法”更有效率:
    http://www.aboboo.com/docs/
    (见“操作指南”下的“MP3”条目,可导出处理后的文本为srt)
    msg7086
        2
    msg7086  
       2015-03-27 06:46:32 +08:00   ❤️ 1
    如果没有背景音干扰的话,自动打轴的确是可以实现的。
    有背景音干扰还请手打,反正很快的。
    luo362722353
        3
    luo362722353  
       2015-03-27 06:59:43 +08:00 via iPhone   ❤️ 1
    请直接使用…纳象云字幕,这个公司的产品,提供精确到句,或者精确到字,各大电视剧,电影,电视台采用过的
    luo362722353
        4
    luo362722353  
       2015-03-27 07:02:28 +08:00 via iPhone
    1小时的片源,带字幕的,一般不超过3_5分钟吧,就能搞定的
    cnbeining
        5
    cnbeining  
       2015-03-27 09:48:15 +08:00
    @luo362722353 这个东西OSX上根本啥都出不来。。。
    Sephinroth
        6
    Sephinroth  
    OP
       2015-03-27 15:37:15 +08:00
    @msg7086
    thx,滚去学习字幕组打轴工具了

    @luo362722353
    感谢,不过这个平台的自动化功能貌似暂只支持中文和英文?手头是有日语和德语的材料需要对齐
    luo362722353
        7
    luo362722353  
       2015-03-27 20:05:34 +08:00 via iPhone   ❤️ 1
    @Sephinroth 连方言都支持,我知道的,其他语种?你联系官方问问,可能会更直接了解
    dontmp
        8
    dontmp  
       2015-03-31 16:37:13 +08:00   ❤️ 1
    这是要做什么呢?
    我前几年写过一个学英语App (https://play.google.com/store/apps/details?id=com.leels.splisten&hl=en), 如果有音频和对应英文文本,可以把音频分割成一句一句的,然后把对应这句话的文本也分出来,无外乎就是音频分段,语音识别然后合并什么的。这个要求比单纯的作字幕轴要求高, 字幕的时间和句子的时间可以不用绝对匹配,这个不行。日语德语什么语都能做,前提是有模型,语音识别要用。
    Sephinroth
        9
    Sephinroth  
    OP
       2015-03-31 23:58:11 +08:00
    @dontmp

    对此感兴趣主要有两个出发点:
    1. 想对齐一本德语小说的文本及相应有声读物(音频长近5小时),用作自己的学习材料。
    2. 想对齐一部日本电视剧的剧本及相应剧集音频(音频长约8小时),用作学习iOS开发的素材。

    语音识别方面没有接触过。打算先试试Youtube自带的字幕对齐功能效果如何:
    https://support.google.com/youtube/answer/2734796?hl=en
    (见Transcribe and set timings那一项)

    要是找不到既有的自动化工具,考虑到音频量不大,可能暂时就自己用字幕打轴工具手动对齐,弄的时候注意下精度什么的。以后要是有比较大的需求或许会去学习下forced alignment等相关技术。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1017 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 485ms · UTC 20:48 · PVG 04:48 · LAX 12:48 · JFK 15:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.