前几天在 X 上刷到一段《让子弹飞》和《甄嬛传》的英语配音视频,音色逼真、英语流利到我以为是真人配的,后来才发现原来是用 B站新发布的 IndexTTS2 文本转语音模型做的。当时心里还打了个小问号,这么好的效果会不会只是剪辑出来的宣传视频?🧵 
直到最近有机会用自己的一段中文教学视频测试了一下,发现这模型还真是厉害,不仅音色还原的相当逼真,而且英语口语地道比我本人流利多了。

原版:https://x.com/dotey/status/1949024590857957583 
其实,用 AI 给视频做翻译配音这件事,一直都有技术团队在尝试,但很长一段时间都没有特别理想的方案,主要因为有两个问题特别难解决:

1. 精准控制语速和时长很难:  如果你翻译过字幕就知道,不同语言表达相同的意思,所需的时长常常不一样。如果翻译后的语句明显比原句长或短,就容易出现画面嘴巴动完了但声音还没完,或者声音已经结束了但嘴巴还在动,这种口型不一致的情况会很别扭。

2. 语音的情绪控制很难:  人的声音是有情感的,不同场景中的语音表达差别非常大。AI翻译配音不光要翻译准确,还得把原片中的情绪也一起传递过去,这一点很有挑战。比如 IndexTTS2 那段甄嬛传的配音视频,就很好地还原了皇后与皇帝对峙时声嘶力竭的情绪,特别有感染力。

那么,IndexTTS2 是怎么解决这些问题的?刚好,B站最近发了一篇论文,名字就叫《IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech》(英文论文链接  、中文解读链接  ),里面把技术细节讲得很清楚了,我简单概括一下我觉得最核心的两点。

第一个重要创新是精准控制生成的声音 Token 长度。

如果你熟悉大语言模型(LLM),就知道“Token”是AI生成文本时的最小单元;AI生成声音也类似,把声音拆成“声音Token”,只要精确控制生成声音Token的数量,就可以精确控制声音的长度,避免嘴型和声音不同步。论文里提供的数据是,这种方式的时长误差率可以控制在0.07%以下,非常精准。

简单打个比方,这就像用中英文双语演讲发言:Token数量决定了你发言声音的长度和节奏,只要事先计算好中文、英文演讲稿字数,就能确保声音的长短完美契合视频画面。

当然,并不是所有时候都需要这么严格控制,有些场景可能更希望AI自由发挥,所以IndexTTS2其实设计了“双模式”:严格控制长度的模式和自由发挥模式,可以根据具体需求灵活切换。

IndexTTS2 的第二个重要创新是把“音色”和“情绪”分离开来。

什么意思呢?以刚刚的《甄嬛传》为例,要生成皇后的哭诉片段,AI只需学习皇后平时正常的声音(音色),然后从已有的情绪素材库(开心、愤怒、伤心等)中调取“伤心”的情绪,加上文字描述就能实现。也就是说,AI不需要专门训练每个人各种情绪的声音,就能生成非常逼真的情绪效果。

如果再做个简单类比,这有点像画画的时候先确定基础色调(音色),然后再从调色板中随意调取需要的情绪色彩,任意组合即可实现想要的效果。这种设计的好处是,今后在用文字生成语音时,只要简单用括号标注一下情绪(如开心、难过、愤怒等),AI就能自动配合情绪生成相应的语音效果,非常方便。

论文里还有很多其他的技术细节,这里就不再赘述,有兴趣可以直接去读原文。
当然,对于大多数用户来说,更关心的还是怎么能用上这个技术。毕竟效果这么好的话,应用场景实在太多了:

比如我自己,一直想录一些英文教学视频,但英语口语不够自信,有了这个AI之后,我完全可以先录制中文的视频,再用IndexTTS2生成英文版本,效果专业又自然。

其他的场景还有有声书的制作、播客、多语言视频创作等等,相信你也能想到很多其他的应用方向:

- 比如你是美食博主,想让自己的美食教程被国外观众看到,有了这个技术就能轻松实现视频的多语言配音,扩大国际影响力;

- 再比如你是主播,平时制作一期播客耗时很长,但有了这个技术后,你只需用一种语言录制一次,其他语言版本自动完成,观众群一下子就扩大了好几倍;

- 甚至像B站这样,已经有UP主的视频能够自动生成英文版,选择英语为APP语言后,不仅视频、字幕、弹幕、评论都会自动翻译,整体体验全面升级。

就比如我关注的一位博主史蒂猪StevenPig,近一年的视频都已经支持中文和英文同步版本了,效果真的不错(目前该功能是在哔哩哔哩手机端 App 体验,感兴趣的话可以从手机端看看他的主页,还有一些其他博主的也支持了这种双语配音视频,我列在了文章末尾)。
更令人期待的是,论文中明确表示,后续将全面开源IndexTTS2的推理代码和模型权重,这意味着即使你不是UP主,也可以在自己的电脑上部署并使用这个强大的语音AI来辅助自己的学习、工作或日常生活:比如制作更专业的英语演讲、快速生成多语言的培训资料,甚至制作自己的有声读物等等。

而从平台角度来说,B站通过这个技术,无疑为未来海外市场的布局打下了一个非常扎实的基础——想象一下,随着越来越多的UP主的视频都能一键自动生成多语言版本,海外用户观看中文内容时的门槛将进一步降低,B站内容生态的海外拓展空间也将进一步被打开。
不知道你看到这里,是不是也和我一样开始有些期待了呢?如果你能拥有这样一位AI配音助手,第一个想要用它做的事情是什么?也欢迎留言和我分享你的奇思妙想~

附录

一些已经支持了双语视频的博主

所长Wy:
果蝇轰:
史蒂猪StevenPig:
33不是山山:
司马尘:
Partager
Explorer

TweetCloner

TweetCloner est un outil créatif pour X/Twitter qui vous permet de cloner n'importe quel tweet ou fil de discussion, de le traduire et de le remixer en un nouveau contenu, et de le republier en quelques secondes.

© 2024 TweetCloner Tous droits réservés.