V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
KIRAYOMATO
V2EX  ›  程序员

有通过深度学习来提升音质的工具吗?

  •  
  •   KIRAYOMATO · 2022-02-08 13:36:41 +08:00 · 3952 次点击
    这是一个创建于 1044 天前的主题,其中的信息可能已经有所发展或是发生改变。

    图片和视频处理的已经有一大堆了,提升分辨率、帧率之类的,而且效果基本上来说还行。

    但是音频处理方面好像没怎么听说过

    18 条回复    2022-02-10 11:56:23 +08:00
    michaelzhou
        1
    michaelzhou  
       2022-02-08 13:43:48 +08:00
    音频有环境声降噪、人声突出增强等等。
    czfy
        2
    czfy  
       2022-02-08 13:54:05 +08:00
    无线耳机用了不少算法吧
    p2pCoder
        3
    p2pCoder  
       2022-02-08 14:01:36 +08:00
    音频肯定也有一大堆了,毕竟 cv nlp 音视频方向出论文的速度是非常快的
    learningman
        4
    learningman  
       2022-02-08 14:06:43 +08:00
    NVIDIA 有一个,但是必须要 RTX 显卡
    learningman
        5
    learningman  
       2022-02-08 14:07:09 +08:00
    NVIDIA RTX Voice
    Chihaya0824
        6
    Chihaya0824  
       2022-02-08 14:57:01 +08:00
    没听说过不代表没有嘛~
    谷歌随便搜一下第一个就有篇带 code 的 paper
    https://kuleshov.github.io/audio-super-res/
    Chihaya0824
        7
    Chihaya0824  
       2022-02-08 15:01:09 +08:00
    @Chihaya0824 上面的都是 5 年前的了
    https://arxiv.org/abs/2111.00195
    这里有份更近的
    tfdetang
        8
    tfdetang  
       2022-02-08 16:28:02 +08:00
    有趣的问题,仔细回顾下,确实音频音质提升的算法和工具似乎不如图片与视频的多。

    虽然不是音频方向的,但是从直觉上觉得提升音质与提升画面分辨率算法并不会有本质上的区别,只需要很有限的改动就能把图像超分辨率应用到音频上。

    我觉得可能还是音频的超分辨率效果不如图像这么直观,所以这个方向的关注度不如图像的那么高。
    kidonng
        9
    kidonng  
       2022-02-08 16:52:44 +08:00 via Android
    > 我觉得可能还是音频的超分辨率效果不如图像这么直观,所以这个方向的关注度不如图像的那么高。

    确实,现代录音设备已经能极大程度的避免失真,高品质音乐串流也早已流行。音频超分辨率用武之地似乎只剩下老歌,问题是听老歌不就是听那个味吗🐶
    KIRAYOMATO
        10
    KIRAYOMATO  
    OP
       2022-02-08 17:08:28 +08:00
    @kidonng
    但是很多东西你搞不到高音质的版本
    比如说视频里的音频,天天被吹支持超高画质的 ytb 音频码率也只有一百多 kbps
    kidonng
        11
    kidonng  
       2022-02-08 17:43:02 +08:00 via Android
    @KIRAYOMATO 128 K 算业界标准吧,我一天天听 MV 的也没觉得问题多大(
    看视频的主要目的还是冲着画面去的,真听歌老实用音乐服务不好吗
    Thiece
        12
    Thiece  
       2022-02-08 17:45:37 +08:00
    @KIRAYOMATO
    如果能做到实时,电话似乎是一个不错的应用领域
    liprais
        13
    liprais  
       2022-02-08 17:46:24 +08:00
    mikewang
        14
    mikewang  
       2022-02-08 21:52:23 +08:00
    补充一个 Upconv: http://59414d41.cocolog-nifty.com/blog/2019/12/post-5c6522.html
    用于填充丢失的高频部分将普通音质声源进行 Hi-Fi 化(不过好像不是深度学习来的)
    zzxgz
        15
    zzxgz  
       2022-02-09 01:39:34 +08:00
    “脑放”算吗?
    xuanbg
        16
    xuanbg  
       2022-02-09 08:48:38 +08:00   ❤️ 1
    大概是因为声音的回放就很不保真的缘故吧,所以提升音质很大程度上是个伪需求。
    MaxLv
        17
    MaxLv  
       2022-02-10 05:15:43 +08:00
    @learningman RTX Voice 现在能非 RTX 卡用了
    toaruScar
        18
    toaruScar  
       2022-02-10 11:56:23 +08:00
    https://www.zhihu.com/question/60497537/answer/270260628 索尼耳机的 DSEE 据说就是通过 AI 来提升音质
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   993 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 21:38 · PVG 05:38 · LAX 13:38 · JFK 16:38
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.