V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bywenshu
V2EX  ›  OpenAI

请问 ChatGPT 官方移动端的语音输出是用什么实现的?

  •  
  •   bywenshu · 2023-10-20 21:06:46 +08:00 · 1065 次点击
    这是一个创建于 407 天前的主题,其中的信息可能已经有所发展或是发生改变。
    如题,我感觉它的语音输出比较自然,想问一下 OpenAI 有没有相关的文字转语音 API ?
    10 条回复    2023-10-21 13:32:57 +08:00
    em70
        1
    em70  
       2023-10-20 21:49:24 +08:00
    是 openai 训练的一个叫 next to audio 的模型提供的服务,API 可能 11 月 6 日会发布

    希望这种周边模型像 whisper 一样能开源出来
    bywenshu
        2
    bywenshu  
    OP
       2023-10-20 22:27:53 +08:00 via Android
    @em70 感谢,但我在谷歌上边没找到你说的这个模型的信息啊……你这消息是从哪里来的?
    em70
        3
    em70  
       2023-10-20 22:37:51 +08:00
    @bywenshu #2 twitter 上看到的,还没发布,可能正式发布不是这个名字.已知信息是.openai 用大模型技术做的语音合成
    youthfire
        4
    youthfire  
       2023-10-20 22:40:26 +08:00 via iPhone
    @em70 #1 开源的那个 whisper 快吗?我没跑过,用的 api 速度倒是非常快,就是量大了也费钱
    yanyao233
        5
    yanyao233  
       2023-10-21 08:35:25 +08:00 via Android   ❤️ 1
    @youthfire 现在有 whisper jax ,whisper cpp ,这两个比官方的 whisper 开源版快很多,可以试一试。模型 api 用的就是 large v2 ,应该效果是一样的
    bywenshu
        6
    bywenshu  
    OP
       2023-10-21 09:44:45 +08:00 via Android
    @youthfire
    @yanyao233 啊? whisper 不是语音转文字吗?
    yanyao233
        7
    yanyao233  
       2023-10-21 09:46:18 +08:00
    @bywenshu 我顺着 #4 回复的,whisper 确实就是个语音转文字
    youthfire
        8
    youthfire  
       2023-10-21 09:48:39 +08:00 via iPhone
    @bywenshu #6 因为一楼正好提到了 whisper 。它本身就有开源免费又有收费 api 两套方案,就顺便问问速度差距。因为之前在其他网站看到说开源的速度很慢,自己也没跑过。
    yiencho
        9
    yiencho  
       2023-10-21 12:59:45 +08:00   ❤️ 1
    就是文本转语音,api 还没开放给普通用户,我看到开放给 spotify 的新闻了,下面这个

    https://newsroom.spotify.com/2023-09-25/ai-voice-translation-pilot-lex-fridman-dax-shepard-steven-bartlett/

    spotify 用它来生成多语言的播客
    em70
        10
    em70  
       2023-10-21 13:32:57 +08:00   ❤️ 1
    @youthfire #4 有个 whisperX 的分支,就算用 CPU 都非常快,据说比原版快 70 倍,没实测过,量不大还是 API 划算
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1048 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 19:05 · PVG 03:05 · LAX 11:05 · JFK 14:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.