直播，所有的技术细节看这篇就够-littlebee小蜜蜂-AWSG爱保信控股集团

随着直播行业的近年来的发展，直播技术现已日趋成熟。在疫情的影响下，直播从传统的秀场应用逐渐渗透到行业的各个领域。包括在线课堂，旅游，政企，房车，金融，销售等等，可以说是全民直播时代已经到来。

在这么大的一个业务体量下，直播将会面对非常多的难点与挑战。总的来说，包含以下三个部分，首先是成本，包括带宽、存储和转码三个方面。其次是用户体验，例如画质，音质，秒开、卡顿和延时。最后是效率方面，例如开播的效率、审核的效率和理解分发的效率。接下来我们就来看一下在成本和体验优化方面做了哪些工作。

直播窄带高清技术

第一大核心技术是端上窄带高清。我们采用HEVC编码实现了720p，25fps，800kbps的压缩，并且PSNR> 43db/VMAF>90。端上窄带高清技术主要应用有三个方面：第一是音视频增强，采用基于AI的图像增强、美颜和语音增强来提高生产质量。第二是感知处理，采用信源信道联合自适应编码。第三是S265编码器，S265编码器是业界领先的HEVC编码器。

第二大核心技术是零转码系统，我们实现了端到端原始流生产的和播放，成功的解决了两个核心的痛点问题：不同网络速度的兼容和不同播放设备的兼容，后者主要通过高性能解码器实现iOS，Android和H5三端的100%解码。

第三大核心技术是低延时技术，我们实现了端到端秒级延时。主要依靠两个技术，一个是基于RTC的实时直播系统，第二个是S265低延时编码技术。

直播系统架构

系统架构，从生产侧来看，有采集、增强、感知处理、S265编码四个环节。云端我们有边缘的接入，有中心接入、切片录制和CDN分发以及边缘分发。在播放端有拥塞控制、解码、渲染和显示。除此之外，在云端还有内容审核，质量监控，内容理解和智能分发。

端上窄带高清

第一个环节是图像增强，为了提升主观质量，我们引入了图像增强技术，对编码前的视频做去噪、去抖、纹理增强以及美颜、美型的功能。除此以外，在后处理部分，还引入了适时超分和HDR技术来提高观看质量。在美颜、美型以及图像处理等方面，引入了GPU的技术，包括内存带宽优化、shader优化、Pipeline优化等等以减少GPU的开销。

零转码系统

第二大核心技术是零转码系统。普通的有转码系统为了适应不同的网络环境，通常会在服务器集群上对上行码流进行各种分辨率、各种码率的压缩来应对各种网络环境，对于一个好的网络，可能更偏向播出一个高分辨率的视频，如果用户的网络不好，会选择播放低分辨率低码率的视频。

直播则实现了零转码，播放的是原始的生产流。这需要解决三个核心问题。

第一个是端侧生产，我们要生产出高质量低码率视频，这个得益于前面说的S265编码器以及前处理技术。

第二个就是H265的解码兼容性，目前H265在Web解码以及手机芯片解码的兼容上做得还不够好，我们在此做了大量的工作来解决这个问题。

第三个是网络环境的适应能力，我们可以通过SVC技术来适应客户不同的网络环境。

低延时技术

第三个核心技术是低延时技术。实现了直播端到端秒级延时，还验证了低延时技术的业务价值；

除此之外，低延时还可以支持新业务形态，如拍卖直播、客服直播等。传统的HLS/FLV直播协议的延时，主要有编码延时、网络延时、分发延时、切片缓冲和播放缓冲，整体加起来大概有10s左右的延时。Flv去除了服务器上的切片缓冲，可以把延时降低到5s左右，但延时时间还是比较长。

但直播的秒级延时采用了UDP的流媒体传输协议，WebRTC的拥塞控制及FEC、netEQ的拥塞控制算法来去除播放器缓冲，并且尽我们最大努力减少防抖缓冲的大小。在生产侧，还采用了低延时的编码技术来降低编码器的延迟。

基于音视频技术趋势探讨

▐ 视频编解码

首先来看一下视频编解码，视频编解码的第一个趋势是云边端一体编码系统。

硬编码主要面对的挑战是压缩效率。我们知道传统的手机芯片压缩都会考虑到PPA问题，所以会提供一个相对而言较低的压缩效率。

软编码的挑战主要是压缩速度，虽然有些像Intel的SVT技术可以把压缩速度提到比较高的水平，但是画质会有一些受损。

未来趋势个人觉得尽可能的利用到端侧的算力，采用高性能软编码器来缓解云端转码的成本压力，把手机芯片硬编码能力利用起来，但是移动端芯片硬编码的质量还不够好，如何优化移动端芯片硬编码质量是一个关键的点；

其次是云+边的统一的转码。现在越来越多的ASIC芯片和GPU芯片已经在努力优化编码的质量，包括FPGA芯片也有优化方案。所以云+边的转码会成为我们下一阶段研究的重点。

视频编解码的第二个趋势是下一代编码标准的应用。主要有H266、AV1、AVS3，这三个标准目前是各有自己的优势。H266在传统芯片的支持上比较好；AV1有先发优势，而且Web兼容性较好，在专利上也有些优势；AVS3经过大家的努力，已经拥有国内生态，且在实体清单的影响下AVS3的发展可能会加速。

第三个趋势是AI+编码。大家也注意到CVPR比赛的情况，AI压缩可以实现对比H266更好的压缩结果，但是在解码速度方面还是会有一些问题，端到端DL压缩在未来会是一个研究热点。除此以外，混合编码框架下的AI压缩也是一个研究热点；第三是场景自适应编码技术，能够根据场景选择编码也是一个很好的技术；第四个是无参考评价系统，在很多时候，有参考可以评价的比较客观，但很多时候，我们拿不到参考，这时候，无参考评价系统就会比较有优势。

▐ 智能语音处理

对于智能语音处理，总结下来主要也分为三个方面。

第一是前端3A处理，主要考察PESQ，STOI的指标以及处理和收敛速度，智能降噪，智能回声消除，盲源分离技术，自动增益技术也会是信号处理和AI的非常好的结合点；

第二是后端网络自适应，先考察丢包下的声音体验。这里有音频超分，智能PLC，自适应码率以及RSFEC、NACK来实现恢复与延时的平衡等等；

第三，音效与评价主要考察核声音的主观体验，如何做到智能美声、自动混响和无参考评价会是我们研究的方向。

▐ 图像增强、视频内容理解、高效传输技术

第三个方面是图像增强，即如何利用传统图像增强与AI结合达到智能去噪、暗光增强、智能选帧和拍摄辅助的效果。

第四个方面视频内容理解，可以用多模态技术来理解视频内容包括通用物体检测、文本语义理解、自然语言处理NLP、标签体系和大规模检索技术等等。

第五个方面是高效传输技术，5G的到来可以提供高带宽，低延时的传输，如何利用5G优势实现智能带宽预测，智能调度系统是我们在网络传输方面研究的一个方向。

爱保信的littlebee小蜜蜂系统，能够满足香港资本市场各个要素间的交互需求，打造“智能会议室”，实现多种类型的线上应用场景，诸如由卖方分析师、基金经理、上市公司高管团队参与的视频会议等，可进行实名精准邀约，达成与会各方的实时互动交流，引领资本市场的“沟通革命”。

littlebee小蜜蜂致力于聚焦金融行业，主要对上市公司、券商和金融机构提供互动直播SaaS云服务，根据机构需求订制还原线下场景的解决方案，让机构快速拥有专业、稳定、快速、流畅的直播平台。

上市公司解决方案

云证券

云资管

云信托

云账户

生态

直播，所有的技术细节看这篇就够-littlebee小蜜蜂