面临特殊时期,无论远程办公、还是学校“停课不停学”都成为时下的必然选择,众多视频会议平台也在特殊环境下开启了短期免费开放及功能服务。但与此同时不可避免会带来突发的大规模在线视频与协作需求与流量冲击,面对高并发、高可用、高性能的挑战,平台背后技术如何支持?未来趋势会在哪里?我们邀请到腾讯云视频通信业务总经理李郁韬分享腾讯云在编解码、视频网络传输等方面技术优化。
LiveVideoStack:Tommy 你好,距离上次采访你过去了一年多的时间,腾讯视频云产品发生了哪些变化?
李郁韬:视频云这一年变化还真挺大的,首先从业务上,我们基本对接了市场上绝大部分客户的直、点播的客户,大盘的业务量增长比较明显,目前在整体带宽、音视频通话时长基本上翻了一倍。
在产品矩阵方面,我们在持续夯实我们流量型 PaaS 平台的同时,也推出了不少新的业务产品,包括更低延迟表现的快直播产品、这次雷神山云监工上用到的慢直播产品、面向制作域的腾讯云剪及云导播台产品、针对企业培训及商业直播场景的直播 SaaS 产品,另外,我们也将我们视频 AI 的产品能力升级为了“视频智能”产品家族。
在腾讯内部,视频云已经成为了腾讯视频业务事实上的中台,微信、企业微信、腾讯会议、腾讯教育等绝大部分视频产品已经跑在了我们视频中台上,在内部,我们也积极推动公司内部各种视频开源协同项目,推动效率提升及技术共享。另外,在下一代音视频编解码、音视频传输协议、音视频前后处理算法等方面,我们也在推动各技术开源社区的建设。
LiveVideoStack:我们观察到小程序上支持课程开播,大大简化了教学直播的流程,也可以快速加入腾讯会议。除此之外,小程序的多媒体服务上还有哪些期待呢?
李郁韬:小程序云直播解决方案是我们融合腾讯云直播技术与微信生态优势,提供的云端直播能力及全平台打通的直播 PaaS 服务,将直播能力注入各业务场景,助力企业快捷实现小程序直播。提供经微信官方认证的小程序直播插件,引入插件就能快速便捷地将直播能力植入自有的微信小程序中。在这次疫情期间,直播除了之前泛娱乐场景外,也更多进入了人们的生产、生活场景中。
另外,我们也联合合作伙伴,上线了针对企业内训等场景的 SaaS 解决方案:腾讯云欢句直播,这是为企业提供更轻量的小程序一站式 SaaS 直播服务,助力企业获取观众多方位画像,提升线上培训及销售跟进效果;在直播中支持将 PPT 等文档同步展示给观众,形式上也支持红包等功能,互动性更强。直播结束后自动生成回放视频,观看回放时 PPT 演示与视频同步播放。
LiveVideoStack:是否向海外用户开放腾讯云视频云的能力,比如小程序直播、H5 直播等?
李郁韬:目前已经在向海外用户开放腾讯视频云的相关能力,以 [多中心点部署] 在中国香港,泰国,新加坡,德国,多伦多,硅谷,俄罗斯,南非,韩国等地都已完成多个中心机房建设,并在逐渐扩大中心机房建设覆盖国家区域。
为了应对海外国家内部网络杂,海外国家跨国网络质量不一,减少卡顿,提供稳定可靠的服务,对于海外直播场景,腾讯云从架构、网络、安全、资源等方面针对性地进行了优化。
依托于腾讯云的出海战略和长期在海外的投入,在全球 50 多个国家和地区建设超过 1300 个传输节点,总带宽储备超 100T,与超过 50 家全球运营商合作,海外加速点 200+。
想体验或使用的朋友,现在可以在云直播控制台直接开启。
LiveVideoStack:去年 12 月看到腾讯会议的发布会,2 月初就遇到“全国人民都在远程工作”的挑战,如何在短时间内给予腾讯会议更好的支持的?与此同时,如何保障其他服务质量不降低,有哪些经验可以和大家分享?
李郁韬:为了保证复杂网络环境下多端接入方式中的音视频传输质量,腾讯会议采用了我们在音视频领域长期积累的云流控引擎技术,通过融合经典信号处理、心理听觉和深度学习理论,针对端到端音视频通信链路上的复杂特性,继承了在微信、QQ、王者荣耀等大型业务中多年沉淀的探测、选路、调度、传输等关键技术,对音视频在云端和用户终端的网络传输环境进行实时探测计算,选择最优网络路径进行传输。
同时,腾讯自研的网络传输协议和 V265 编码技术,在降低音视频传输过程中丢包率的同时,还能保证在屏幕分享场景和在不同终端上的视频清晰度,保证用户的会议使用体验。
在质量评估方面,腾讯会议还借助腾讯多媒体实验室上百个符合 ITU/3GPP/AVS 等国内外标准的指标进行评判。为了更好的衡量 QoE,腾讯多媒体实验室构建了大规模音视频主观质量数据库,并基于这些数据来研发客观质量评估算法,然后部署到业务线中,闭环监控全网的用户体验质量。
另外,用户在使用腾讯会议时,普遍感觉环境杂音较少。这个体验同样得益于腾讯云音视频在降噪方面的技术积累。腾讯会议考虑到远程会议的环境多样性,针对多人、多场景实时通信系统中的 3A 问题(降噪、回声抑制、增益控制),进行智能化降噪处理,让与会者克服噪音干扰,获得专注的会议环境。
LiveVideoStack:腾讯云视频云团队是如何应对用户使用量暴增的情况的?比如通过“降级服务”保证用户的基本服务,比如使用延迟更高的 RTMP 替代 WebRTC 低延迟线路?
李郁韬:腾讯视频云直播为用户提供 TRTC (Tencent Real-Time Communication) + WebRTC 快直播 (上行走 RTMP 推流或 FLV、HLS、RTMP 回源,下行支持标准 WebRTC 协议输出)+ CDN (FLV/HLS/DASH) 大融合解决方案,像教育、会议、互动对实时性要求比较高的场景优先走 TRTC 接入(全球<300ms 延时),同时 TRTC 接入会实时混流并 RTMP 推流到直播平台,用户可以根据在线并发量配置超过一定并发阈值(比如 100W )以后自动切一部分流量到 WebRTC 快直播(延时 500ms 左右)或普通 CDN 接入(延时跟用户 GOP 及 CDN buffer 配置有关,普遍延时在 2-5 秒左右)。视频云 CDN 在全球 50 多个国家和地区建设超过 1300 个传输节点,总带宽储备超 100T,与超过 50 家全球运营商合作,海外加速点 200+。
LiveVideoStack:我知道有些客户已经在测试腾讯视频云的 SRT 方案和 WebRTC CDN 产品,相较于 QUIC、RTMP 和低延迟 HLS,SRT 和 WebRTC CDN 的优势是什么?
李郁韬:SRT 相比 QUIC,有专门针对直播场景的优化,传输控制中更好的结合了实时码率的评估和 pacing rate 发送间隔的计算;另外,SRT 在传输时是可配置的允许丢包的,腾讯视频云根据音视频的编码特点,支持有选择的丢包,在降低帧率但不影响画面质量的情况下,尽可能的保障了播放的流畅性。SRT 基于 UDP 比基于 TCP 的 RTMP 和 HLS,有效解决了在长距离链路传输场景中延迟高、抗抖动性差的问题;经过实际测试,SRT 相比 RTMP 具有明显的低延迟和低卡顿的特性我们在 SRT 的扩展性上,支持所有基于 TCP 的协议,包括 RTMP/FLV/HLS,QUIC 主要用于在 FLV、HLS。
LiveVideoStack:关于视频 Codec 有哪些新消息可以透露的?
李郁韬:2019 年 9 月,腾讯正式宣布加入开放媒体联盟 AOMedia,推进视频 AV1 标准商业化,并成为董事会员之一,同时也是董事会员中唯一的中国企业。日前,腾讯视频云直播( FLV/HLS/DASH)、点播均已支持 AV1/AVS2 标准,据悉,腾讯云也是国内首家直播+点播同时支持 AV1/AVS2 视频处理业务的公有云厂商。VVC/AVS3 腾讯视频云也正在开发和工程验证阶段,2020 年也会陆续对客户开放。
LiveVideoStack:关于深度学习,从 AI 增强的 Codec,内容理解和自动化剪辑,腾讯视频云正在做哪些相关工作?
李郁韬:腾讯视频云明眸·极速高清-智能动态编码技术,通过智能场景识别,业界领先的音视频编码、图像深度学习与画质增强等技术积累,对视频进行动态感知编码和画质增强处理,提升视频观看体验,为直播、点播等行业以更低的码率提供更高清的流媒体服务。极速高清可以在点播和直播业务下,相比开源软件在相同画质下平均分别节省超 30%+和 40%+的带宽成本;或在同等带宽条件下,提供更加高清优质的视频画质体验,感受“质”的变化。极速高清 AI 增强这块在 4K 超分、HDR、色彩增强、智能弹幕、插帧等这几方面技术在游戏赛事直播、广电高清频道以及 4K/8K 体育赛事直播上现在都有比较成功的客户应用。
腾讯视频去智眸·采识编审基于腾讯各实验室最新研究成果,为广电新媒体、教育、直播及在线视频场景提供视频内容理解剪辑、智能识别、智能编辑、智能审核等功能,70 周年 CCTV 国庆阅兵自动剪辑,游戏直播赛事精彩片段实时自动生成,直播实时语音 /OCR 识别、涉黄、涉暴、涉政实时审核等。结合智眸·采识编审的视频内容理解和剪辑、编辑、识别、审核等原子能力,腾讯视频云最近推出的腾讯云剪和导播台产品在这次新冠疫情阶段在教育、会议和体育赛事直播上为媒体平台、PGC/UPGC、MCN、直播平台以及电竞内容等内容制作者和机构提供在线视频创作工具、编辑、推流等一整套 pipeline 流程解决方案。
LiveVideoStack:从直播、短视频、直播答题、在线教育、视频会议、企业协作,多媒体应用经历了从互联网到行业,从 2C 到 2B 的渗透,你认为下一个风口在哪里?
李郁韬:短期来看,就如前面我提到的,受这次疫情的推动,线下业务、线下内容、线下商业会加速往线上迁移,包括大家看到的办公协同、音视频通信、视频营销、娱乐体验等等;有个数据,近一个月期间,腾讯云在音视频通话的分钟数达到了日均 30 亿分钟的规模,这个挺大量级的一个数字;另外,之前 VR 一直不温不火,那如果线下商业往线上迁移,类似 VR 看房、VR 看车等场景,真的是可以落地了;另外基于音视频 AI 的智能内容生产、虚拟主播、智能客服等场景也将会越来越多。
中长期看,比较看好在线办公协同和在线教育的发展,经过这段时间在家复工复课,大家感受到了科技对于紧急事件的巨大帮助,体验到了越来越丰富和稳定的音视频通信服务可以一定程度替代传统的线下沟通方式,相信未来大家也更能接受这种在线教育和办公的生活方式。