首页 文章详情

AI可以修复声画,也能修复回忆吗?

雷锋网 | 53 2022-07-11 02:11 0 0 0
UniSMS (合一短信)
修复前效果

致敬经典,1991年的Beyond回来了!


作者 | 何思思

编辑 | 林觉民

有一种情怀叫Beyond,黄家驹一开口,谁的DNA动了?

7月3日19点,“Beyond Live 1991生命接触演唱会精选及纪念音乐会精选超清修复版”在抖音、西瓜视频、今日头条等多个平台重映。时隔31年,Beyond再次走进了大众视野。

一句“今天只有残留的躯壳 迎接光辉岁月 风雨中抱紧自由”瞬间将人们拉回了1991年9月Beyond在中国香港红磡体育馆举行的“Beyond Live 1991 生命接触演唱会”,那场演唱会也成了Beyond播放率最高的一场演唱会。

此次修复版演唱会,从《光辉岁月》、《海阔天空》再到《不再犹豫》...一首首经典歌曲,吸引了1.4亿人次的在线观看。活动结束时,不少人在评论区纷纷刷起“没有看够,再回放一次,在哪可以下载高清版视频”等留言,致敬经典,致敬Beyond。

除了满满的情怀和回忆外,在这场演唱中可以感受到,无论是画面清晰度、色彩饱和度、还是音质降噪等方面都极大地还原了线下演唱会观看的效果,火山引擎就参与了这场演唱会的修复工作,在其算法的加持下,为观众呈现了一场具有情怀的视听盛宴。

对于抖音和火山引擎来说,其使命不在于修复一场演唱会,提升画面清晰度和辨识度这么简单,而是通过修复唤起几代人背后的回忆,从而产生共鸣擦出火花,这才是修复的价值所在。

1


时隔31年,年轻的Beyond 回来了

在各大短视频平台经常刷到修复版影片的重映,这也成了人们致敬经典的最佳途径之一,这背后往往需要AI技术的加持。

其实,AI修复影片早已不是一件新鲜事,随着技术的更新迭代,近段时间AI修复演唱会成了新风口。从修复类型来看,虽然二者都属于视频修复的范畴,但却着较大的差别。

火山引擎音频技术团队研究员舒晓峰表示,影视和演唱会的内容和制作方式有较大的差别,其中演唱会是以唱歌的形式输出,现场环境较影片环境复杂,不仅有环境声还有歌声,另外拾音设备也存在一定距离,这就导致演唱会修复要比影视片修复复杂得多。

值得注意的是,画面通常是演唱会修复的重要环节之一,因为它决定了整体演唱会的观感。

火山引擎多媒体实验室研究员赵世杰告诉雷峰网,演唱会的画质修复并非大家想象的那么简单,以Beyond Live 1991 生命接触演唱会为例,由于当时演唱会整体环境较暗,细节不够丰富,场景切换快,灯光以及声音环境复杂等给修复工作带来了严峻的挑战,从而给算法增加了难度。

赵世杰介绍,早期录像设备的解析度比较差,拍摄的画面分辨率低且清晰度差,往往会造成画面模糊、纹理缺失等问题;压缩存储方面,早期影片隔行扫描的方式造成了交错条纹的瑕疵问题,对画面的美观性和完整性都有较大的影响。

另外,色彩、亮度也是修复的一大难点,由于早期拍摄设备的原因,影片存在大量的过曝和死黑场景以及较重的底噪,在亮度调解过程中如何避免底噪被放大,以及如何降低过躁造成的不适感是算法的难点。

其实在画质修复环节,最难的还是人脸,这也是观众最在意的点。演唱会中人脸往往会出现多个角度,比如正脸、侧脸、俯视、仰视等,甚至有被乐器遮挡的人脸,如何调节不同景别,不同姿态下人像修复效果且跟背景不同,这就对算法提出了严峻考验。

面对这些问题,赵世杰向雷峰网阐述了火山引擎增强算法的应对之道:

清晰度修复方面,基于在大量数据上训练的深度学习算法,火山引擎通过清晰度增强和瑕疵修复法的能力将视频分辨率从低清处理变为超高清,并在缺少纹理的区域生成更丰富的细节。同时对于隔行扫描的视频画面,火山引擎多媒体实验室设计了多帧输入的神经网络去交错法。

赵世杰特别强调道,这主要在于早期视频大多采用隔行扫描的方式进行处理、编码、显示,会造成现代设备直接播放过程中产生严重的闪烁现象。这主要是因为隔行扫描讯号,两行只有一行有影像,另外一行全是黑的,所以都需要经过去交错处理,将隔行扫描讯号转换为逐行扫描讯号。

在这种情况下,传统去交错方式一般输入仅做单交错帧,对时域上的内容变化感知较弱,因此对于运动场景的拉丝情况处理较差。

与传统去交错方式相比,火山引擎设计的多帧输入神经网络去交错法就实现了传统交错法无法达到的技术效果,凭借其泛化性的特点,修复了Beyond演唱会中更多的细节和运动场景下产生的拉丝情况。

通过前后对比效果可以看出,在乐手的手部原本有横纹拉丝的问题,并且画面较为模糊,经修复后,无论是琴还是人的手部画面都完美还原了现场的真实感和清晰度。

亮度、色彩修复方面,针对Beyond演唱会中存在的老旧视频褪色、颜色异常、过曝、过暗等问题,火山引擎采用了基于美学评分的自适应分区域色彩亮度增强算法。

该算法主要以具体片源效果作为基础,依据美学评分,在色彩、亮度、对比度、饱和度、人像ROI和背景方面做分区域增强,根据不同帧的色彩统计信息进行自适应亮度增强,不仅使亮区与暗区都得到了最好的表现效果,还使修复老旧视频的褪色和保留老旧视频的复古感,两者之间达到了平衡。

人脸修复方面,演唱会很多片段中的人脸存在较大的彩色噪声,压缩损伤等问题。另外据了解目前业界大部分的人脸修复只是基于单张照片,很难找到基于视频的人脸修复,因为视频中每一帧中脸的角度不一样,各种姿态下的脸都需要算法处理。

火山引擎重点突破,基于深度学习模型,在Beyond演唱会修复中采用自适应人像增强算法进行修复,通过先验特性,在消除人脸模糊和压缩损伤的同时还可以对五官进行重建,甚至可以对发丝等细节和纹理进行重建和添加,做到不同景别、不同姿态下的人脸修复工作,使人脸更为清晰。

从整体演唱会的主观感受上看,修复后的画面更清晰、更真实。

有用户在评论区留言,修复后的演唱会有一种现场观影的即视感,歌手乐手的脸部以及乐器舞台等细节,清晰可见,有一种置身Beyond Live 1991生命接触演唱会的感觉。

2


时隔31年重现,Beyond

歌声不减“现场”

大多数人认为,高清的音质能提升整个演唱会的完整度和精致度,也会极大增加观众的观感。

对于Beyond这类能触发人情怀的经典演唱会更是如此,修复的好可能热评如潮,修复不好可能就是一场悲剧。

在Beyond这场演唱会修复过程中,音质同样给修复带来了不同程度的困难挑战。

舒晓峰向雷峰网介绍了音质修复的难点:其一,由于录音设备和环境的噪音导致音质差,加上周边环境会录制到一些底噪声;其二,设备压缩算法等导致截止效率低带来的带宽不足问题;其三,混响过大导致音质差以及响度问题带来听觉不适等问题。

为此,火山引擎音视频技术团队做了针对性研究,并给出了相应的解决方案。

首先,面对噪音干扰问题,舒晓峰表示,目前业界大多采用传统降噪方式,但其主要适用于人声,音乐被降噪算法处理后会受到不同程度的损伤,而演唱会是一个人声、音乐声,现场环境声等交杂的声音环境,显然传统降噪方式不适用于演唱会的音质修复。

考虑到这点,火山引擎研发了针对这种多元素场景的音频降噪算法,与传统降噪方案不同的是,该算法兼容了音乐场景和人声场景,可以在保留人说话声、音乐声的前提下,抑制其他噪声。

其次,带宽也是影响演唱会音质的关键要素。舒晓峰告诉雷峰网,演唱会中由于拾音设备、录制硬件或者压缩等原因,会使高频信息受到损伤,影响听觉体验感。基于此,火山引擎通过音频超分算法,对人声部分进行了频带拓展,在不伤害音质的前提下丰富高频信息,使声音从闷变得更清亮。

从频谱图中可以看到,通过超分模块的处理,原始音频的高频部分得到了拓展和增强。

再者,演唱会往往伴有不同的乐器声,观众欢呼声以及现场各种忽大忽小的声音,火山引擎通过响度算法单独提取唱歌部分,然后进行调整,最后混合,使得人声和其他声音的音量配比更加舒适,从而提升观众的听觉感受。

值得注意的是,此次修复演唱会是由1991 生命接触的演唱会和纪念音乐会音乐会两部分组成。舒晓峰表示,这极大增加了修复难度,为了避免两部分音量不同,对两场演唱会的拼接部分做了响度调整,此外也对前后两部分不同歌手的音量大小做了响度调整,极大提升了听觉体验。

通过Beyond演唱会的重映,许多观影者都给予了高度评价,不少人表示,不仅画面清晰,音质方面也体验到了线下演唱会般的听感。

3


老旧视频修复,Beyond

之后又是谁?

AI修复视频,已经成了近两年许多厂商感兴趣且愿意花费时间精力去做的有意义的事情,其也逐渐成为了诸多平台新的增长极。

视频修复方面,其实火山引擎早在去年就有了动作。去年10月,西瓜视频就联合火山引擎推出了“经典视频4K修复计划”。不到一年的时间,已经通过AI 技术手段完成了百部经典动画片的修复,其中包括71部影片的4K修复,童年记忆《葫芦兄弟》的播放次数达到300万。

火山引擎能完成如此高质量的修复任务,主要是在视频云方面的技术积累和成功实践。同时抖音、西瓜视频、今日头条等不同场景还为其提供了试验田。

据介绍,火山引擎视频云通过技术的积累,可以为用户的四大体验负责,包括互动、播放、画质、性能四方面的体验感。在优秀的用户体验的加持下,火山引擎的音视频技术已经渗透到了游戏、电商、教育以及金融等行业。

老旧视频的修复才刚刚开始,从经典动画片到演唱会,再到更多的经典影像修复,仍需要通过不断迭代的技术来实现。


END


推荐阅读

涂鸦:千亿变百亿的「傲慢与偏见」


智能运维行业乱象:估值虚高、上市受阻、裁员频现


爱奇艺往事:多少过错,多少错过






good-icon 0
favorite-icon 0
收藏
回复数量: 0
    暂无评论~~
    Ctrl+Enter