作者:中央广播电视总台 孙雨甜

摘要:

AI横转竖是智能化快捷生成竖屏直播素材的全新技术,具有多场景替代、灵活性强和轻量化制作的特点,结合竖屏赛事直播制作可为移动端观赛提供沉浸式体验。本文阐述了AI横转竖技术在亚运会新媒体直播中的整体技术方案、应用架构、应用要点,并对后续应用场景进行了探讨。

关键词:

横转竖|AI竖屏制作编码转码


杭州亚运会竖屏看乒乓球比赛的转播中应用了总台自有的AI横转竖技术,在不增设横屏拍摄机位的基础上,通过AI横转竖技术对横屏机位的处理,即时快速地生成竖屏信号,打破了竖屏原生机位架设数量和位置的限制。同时,增加人工辅助AI裁切的功能,弥补AI识别算法对于特定主体识别的局限性,使自动生成的竖屏内容更加贴合竖屏镜头语言。本次应用是一次直播生产流程的创新,也是总台5G+4K/8K+AI重要战略的体现。

一、方案介绍

1.整体方案介绍

在方案设计时考虑到乒乓球项目具有球体小、球拍小、球台小的特点,且乒乓球的球速快、旋转强、弧线变化多,因此结合乒乓球比赛特性和竖屏视频呈现形式,我们从转播车选取适合应用AI横转竖处理生成竖屏的5路4K直播信号,以5G背包作为信源传输工具,通过网络专线将信号传送至云端部署的AI横转竖服务端进行AI识别。

AI横转竖服务端对AI识别信息进行实时的获取、呈现和处理,并支持在此环节对AI自动裁切的竖屏画面进行干预调整,将横转竖服务端转码生成的5路高清竖屏直播画面传送至竖屏制作系统,与原生拍摄的竖屏画面一起作为直播机位素材进入切换制作系统供导演进行切换。最终输出1路竖屏直播流返回新媒体集成发布平台进行终端的调度分发,实现在央视频客户端的竖屏直播呈现。

2.应用架构

AI横转竖服务采用了C/S架构,将客户端安装在操作电脑上,服务端部署在公有云上,实现在客户端实时呈现裁切画面和人工辅助干预,在服务端完成数据传输和竖屏转码合成。部署在公有云的服务端主要包含直播流传送、AI识别和裁切合成三个主要服务能力。直播流传送服务主要承担直播信号的推流、拉流和协议转换。

AI识别服务中AI识别算法以动态库的方式接入,在直播流接收后由该服务对直播进行抽帧,对帧图片进行AI识别并返回实时裁切位置数据。裁切合成服务主要完成在人工干预或AI识别模式下获取裁切点位置后,根据位置信息实时转码生成竖屏。

AI横转竖服务的客户端安装在用户电脑上,在公有云服务器IP白名单等安全手段的控制下,与服务端进行一一绑定。客户端主要提供了直播画面及裁切画面的实时呈现、人工辅助干预和缓存调整等功能。客户端在获取服务端传送的直播流和裁切位置信息后进行了实时呈现,可以配合人工辅助干预功能对AI识别的裁切位置进行调整,并支持外接摇杆等设备操作。客户端负责将最终的裁切位置数据返回到服务端,配合裁切合成服务完成竖屏直播流的生成。同时,为了实现多路直播画面同步功能,在客户端开放缓存调整功能。

为了保证传输的高效、稳定,AI横转竖采用TCP协议来进行服务端和客户端之间实时通信,使用SRT协议的直播流进行处理。而整个处理过程中AI识别服务用时1.5秒左右,前后端直播信号传输1秒以内,整体处理流程延时不超过2.5秒。

二、应用要点

AI横转竖在直播制作环节的应用重点考虑了裁切画面的可利用率以及服务的通用性、即时性和稳定性,针对此进行了要点设计。

1.人工辅助干预

AI识别算法在体育赛事的通用场景下对主体的识别已经可以直接投入实际应用场景之中。而在特定场景下,AI算法的自动识别还存在一些场景转换和特征动作识别的局限性。在实际竖屏制作中基于横屏的竖屏裁切还需兼顾导演或导播对于画面的需求和横竖屏拍摄镜头语言的转换,因此我们引入了人工干预辅助裁切功能。

以本次乒乓球比赛为例,一是在运动员发球时,横屏镜头拍摄往往会把发球人居中,而在竖屏9:16的画幅当中,特大的人物特写反而会缺失重要的运动员发球手及上抛的动作;二是双打比赛中,两个运动员搭档之间通过手势来沟通,这也是竖屏需要重点选取的内容。

我们引入人工辅助干预功能,就能够随时对AI识别生成的裁切框进行人工接管,根据现场导演的指导和需求跟踪想要的画面,提供竖屏制作素材。

2.多路直播画面同步

本次的竖屏乒乓球比赛直播是由多路竖屏机位切换制作而来,除了AI横转竖自动生成的竖屏画面外,还有原生拍摄的4路竖屏直播画面,为了统一制作,必须保证不同机位的画面同步。

AI横转竖的服务端在接收到直播流的时候就需要进行解码来完成后续的AI识别和裁切合成,这个处理会失去信源传输设备为直播流添加的时间标记,而信源传输设备和解码器之间基于私有协议传输的时间标记是无法开放给外部服务调用的,因此我们须打破私有协议传输标记的限制。除此之外,在亚运会乒乓球比赛的转播现场并不具备在直播上添加物理时间戳帮助我们自动对齐多路画面的技术条件。

在充分考虑上述问题和AI横转竖服务的通用性后,我们将服务端拉流的缓存时间开放到客户端进行配置。操作员可以根据多路直播画面的快慢情况,以画面最慢的一路为准在客户端实时增加其他几路直播的缓存时间,实现多机位画面同步的效果。

3.应用部署

通常类似横屏转竖屏的工作都会借助物理切换台或者搭建工作站来实现在制作前方的应用。AI横转服务在设计之初就希望可以在稳定运行的基础上更具灵活性,同时节约设备成本,所以我们选择了以C/S架构的方式进行开发,将服务端部署在公有云上,用户在电脑上安装客户端进行操作。单个云服务器部署的服务与客户端是一一绑定的,单台云服务器可以处理单路直播。

这样的设计是更加轻量化的,也使客户端的运行更稳定、延时更低。我们可以根据制作现场对于直播机位的需求随时配合扩充或缩减云服务器的数量,也可以随时调整每台服务器对应处理的直播流。在制作前方配合竖屏直播裁切也只需要配备基础的办公型笔记本电脑,通过键盘进行快捷操作,也支持外接控制工具辅助裁切。在比赛结束后我们就对云资源进行了释放,后续会根据实际业务需求再去申请,避免资源冗余,降低成本。

4.服务端与客户端的数据连接

客户端和服务端之间通过TCP协议建立连接,实现了预览的视频流、音频数据、AI裁切位置数据和控制命令的双向传输。为了保证前后端连接的稳定性,我们增加了心跳机制,在这4种数据传输中加入心跳,可以及时发现数据连接的异常,避免因为一种数据长时间未进行交换而造成直播画面花屏、抖动的问题。例如,长时间处于AI识别状态下,客户端未向服务端传递控制命令,如果出现了数据连接断开的问题,我们可以在服务端及时发现并进行处理。

在AI横转竖服务长期运行的情况下,我们还添加了服务端与客户端的自动重连机制,可以节省技术人员线下沟通的时间,快速恢复连接,在直播过程中提供更稳定的服务。

三、应用场景规划

基于AI横转竖技术在杭州亚运会的乒乓球比赛竖屏制作中的应用,我们针对不同的场景进行应用分析和重点规划。

一是体育赛事类场景。在竖屏9:16的画幅下,如何更好地呈现赛事内容,如何基于重组横屏镜头来完成竖屏的内容表达是重点问题。众多不同类型的体育赛事都具有不同特点,我们可以简单地将运动类型进行分类。网球、羽毛球、乒乓球等球类运动,虽然场地大小不同,但都具有球体小、运动员移动速度快、对阵双方轮流击球的特点,且单场比赛的运动员人数不超过4人。

在横转竖的处理上和竖屏表达上更具优势。其中网球因为场地颜色对比鲜明、户外比赛观赏度高,是最适合自动化生成竖屏的运动类型之一。除此之外,一些单人比赛,如举重、攀岩、霹雳舞等,也可以更好地进行画面识别和裁切。而每项赛事需要选取的特征并不相同,需要针对专项特殊的动作进行识别和处理。

二是文艺节目类场景。这一场景可以细分为无人物空镜、单人场景、双人场景、多人场景4种。

无人物空镜通常不需要过多处理,裁切的主体应为横屏画幅的中间区域;单人场景主要是歌唱类的节目或单人主持的场景,AI识别的准确度相对高且画面更适宜裁切竖屏;双人场景一般为相声、双人主持或一对一采访,这类场景下9:16的竖屏画幅很难同时包含两个人,所以重点应放在识别出正在说话发言的人物,结合导播制作完成场景表达;多人场景一般为歌舞类节目、观众席拍摄和多人群访等,此类节目因人物多、场景复杂,AI自动识别裁切竖屏的难度也最高,需要打破原有画面的叙事逻辑,从竖屏原生拍摄的角度来重组镜头。

三是访谈类节目场景。这类节目的拍摄场景相对固定,特写镜头会增多,这是有利于竖屏裁切的。但镜头的频繁转向可能会造成观众感受混乱,还需要进行一定的镜头重组。

四、总结

AI横转竖技术在亚运会乒乓球比赛竖屏直播制作中的应用是一次生产流程和模式上的创新。利用横屏机位画面自动生成竖屏,按照实际需求补充原生竖屏机位,可以替代特写、追踪等机位,具备多场景的替代能力,使裁切出的画面更加贴合竖屏镜头语言,也在一定程度解决了场地、设备、人员等造成竖屏机位架设不足的问题,低成本地输出竖屏素材。

而基于云端的服务端建设使得AI横转竖服务更具快捷性和即时性,可以随着用户的需求弹性扩充部署,即调即用,避免资源浪费。客户端对于安装设备的性能要求门槛低,适配大部分的基础办公电脑,更利于大众普遍使用。AI横转竖服务除了能在制作场景中提供机位素材之外,还可直接应用于新媒体直播直接生成竖屏直播流用于播出。

随着移动端用户对于竖屏直播的观看需求日益旺盛和丰富,我们希望能将AI横转竖服务持续升级,面向不同的场景,探索基于横屏画面的竖屏镜头重组方式,真正将横转竖技术通用化、能力化,优化新媒体竖屏内容呈现方式,为创新生产流程提供新的思路。

来源:选自2023年第11期《现代电视技术》