随着直播行业的近年来的发展,直播技术现已日趋成熟。在疫情的影响下,直播从传统的秀场应用逐渐渗透到行业的各个领域。包括在线课堂,旅游,政企,房车,金融,销售等等,可以说是全民直播时代已经到来。
在这么大的一个业务体量下,直播将会面对非常多的难点与挑战。总的来说,包含以下三个部分,首先是成本,包括带宽、存储和转码三个方面。其次是用户体验,例如画质,音质,秒开、卡顿和延时。最后是效率方面,例如开播的效率、审核的效率和理解分发的效率。接下来我们就来看一下在成本和体验优化方面做了哪些工作。
直播窄带高清技术
第一大核心技术是端上窄带高清。我们采用HEVC编码实现了720p,25fps,800kbps的压缩,并且PSNR> 43db/VMAF>90。端上窄带高清技术主要应用有三个方面:第一是音视频增强,采用基于AI的图像增强、美颜和语音增强来提高生产质量。第二是感知处理,采用信源信道联合自适应编码。第三是S265编码器,S265编码器是业界领先的HEVC编码器。
第二大核心技术是零转码系统,我们实现了端到端原始流生产的和播放,成功的解决了两个核心的痛点问题:不同网络速度的兼容和不同播放设备的兼容,后者主要通过高性能解码器实现iOS,Android和H5三端的100%解码。
第三大核心技术是低延时技术,我们实现了端到端秒级延时。主要依靠两个技术,一个是基于RTC的实时直播系统,第二个是S265低延时编码技术。
直播系统架构
系统架构,从生产侧来看,有采集、增强、感知处理、S265编码四个环节。云端我们有边缘的接入,有中心接入、切片录制和CDN分发以及边缘分发。在播放端有拥塞控制、解码、渲染和显示。除此之外,在云端还有内容审核,质量监控,内容理解和智能分发。
端上窄带高清
第一个环节是图像增强,为了提升主观质量,我们引入了图像增强技术,对编码前的视频做去噪、去抖、纹理增强以及美颜、美型的功能。除此以外,在后处理部分,还引入了适时超分和HDR技术来提高观看质量。在美颜、美型以及图像处理等方面,引入了GPU的技术,包括内存带宽优化、shader优化、Pipeline优化等等以减少GPU的开销。
零转码系统
第二大核心技术是零转码系统。普通的有转码系统为了适应不同的网络环境,通常会在服务器集群上对上行码流进行各种分辨率、各种码率的压缩来应对各种网络环境,对于一个好的网络,可能更偏向播出一个高分辨率的视频,如果用户的网络不好,会选择播放低分辨率低码率的视频。
直播则实现了零转码,播放的是原始的生产流。这需要解决三个核心问题。
第一个是端侧生产,我们要生产出高质量低码率视频,这个得益于前面说的S265编码器以及前处理技术。
第二个就是H265的解码兼容性,目前H265在Web解码以及手机芯片解码的兼容上做得还不够好,我们在此做了大量的工作来解决这个问题。
第三个是网络环境的适应能力,我们可以通过SVC技术来适应客户不同的网络环境。
低延时技术
第三个核心技术是低延时技术。实现了直播端到端秒级延时,还验证了低延时技术的业务价值;
除此之外,低延时还可以支持新业务形态,如拍卖直播、客服直播等。传统的HLS/FLV直播协议的延时,主要有编码延时、网络延时、分发延时、切片缓冲和播放缓冲,整体加起来大概有10s左右的延时。Flv去除了服务器上的切片缓冲,可以把延时降低到5s左右,但延时时间还是比较长。
但直播的秒级延时采用了UDP的流媒体传输协议,WebRTC的拥塞控制及FEC、netEQ的拥塞控制算法来去除播放器缓冲,并且尽我们最大努力减少防抖缓冲的大小。在生产侧,还采用了低延时的编码技术来降低编码器的延迟。
基于音视频技术趋势探讨
▐ 视频编解码
首先来看一下视频编解码,视频编解码的第一个趋势是云边端一体编码系统。
硬编码主要面对的挑战是压缩效率。我们知道传统的手机芯片压缩都会考虑到PPA问题,所以会提供一个相对而言较低的压缩效率。
软编码的挑战主要是压缩速度,虽然有些像Intel的SVT技术可以把压缩速度提到比较高的水平,但是画质会有一些受损。
未来趋势个人觉得尽可能的利用到端侧的算力,采用高性能软编码器来缓解云端转码的成本压力 ,把手机芯片硬编码能力利用起来,但是移动端芯片硬编码的质量还不够好,如何优化移动端芯片硬编码质量是一个关键的点;
其次是云+边的统一的转码。现在越来越多的ASIC芯片和GPU芯片已经在努力优化编码的质量,包括FPGA芯片也有优化方案。所以云+边的转码会成为我们下一阶段研究的重点。
视频编解码的第二个趋势是下一代编码标准的应用。主要有H266、AV1、AVS3,这三个标准目前是各有自己的优势。H266在传统芯片的支持上比较好;AV1有先发优势,而且Web兼容性较好,在专利上也有些优势;AVS3经过大家的努力,已经拥有国内生态,且在实体清单的影响下AVS3的发展可能会加速。
第三个趋势是AI+编码。大家也注意到CVPR比赛的情况,AI压缩可以实现对比H266更好的压缩结果,但是在解码速度方面还是会有一些问题,端到端DL压缩在未来会是一个研究热点。除此以外,混合编码框架下的AI压缩也是一个研究热点;第三是场景自适应编码技术,能够根据场景选择编码也是一个很好的技术;第四个是无参考评价系统,在很多时候,有参考可以评价的比较客观,但很多时候,我们拿不到参考,这时候,无参考评价系统就会比较有优势。
▐ 智能语音处理
对于智能语音处理,总结下来主要也分为三个方面。
第一是前端3A处理,主要考察PESQ,STOI的指标以及处理和收敛速度,智能降噪,智能回声消除,盲源分离技术,自动增益技术也会是信号处理和AI的非常好的结合点;
第二是后端网络自适应,先考察丢包下的声音体验。这里有音频超分,智能PLC,自适应码率以及RSFEC、NACK来实现恢复与延时的平衡等等;
第三,音效与评价主要考察核声音的主观体验,如何做到智能美声、自动混响和无参考评价会是我们研究的方向。
▐ 图像增强、视频内容理解、高效传输技术
第三个方面是图像增强,即如何利用传统图像增强与AI结合达到智能去噪、暗光增强、智能选帧和拍摄辅助的效果。
第四个方面视频内容理解,可以用多模态技术来理解视频内容包括通用物体检测、文本语义理解、自然语言处理NLP、标签体系和大规模检索技术等等。
第五个方面是高效传输技术,5G的到来可以提供高带宽,低延时的传输,如何利用5G优势实现智能带宽预测,智能调度系统是我们在网络传输方面研究的一个方向。
爱保信的littlebee小蜜蜂系统,能够满足香港资本市场各个要素间的交互需求,打造“智能会议室”,实现多种类型的线上应用场景,诸如由卖方分析师、基金经理、上市公司高管团队参与的视频会议等,可进行实名精准邀约,达成与会各方的实时互动交流,引领资本市场的“沟通革命”。
littlebee小蜜蜂致力于聚焦金融行业,主要对上市公司、券商和金融机构提供互动直播SaaS云服务,根据机构需求订制还原线下场景的解决方案,让机构快速拥有专业、稳定、快速、流畅的直播平台。