宝玉 avatar

宝玉

@dotey

前几天在 X 上刷到一段《让子弹飞》和《甄嬛传》的英语配音视频,音色逼真、英语流利到我以为是真人配的,后来才发现原来是用 B站新发布的 IndexTTS2 文本转语音模型做的。当时心里还打了个小问号,这么好的效果会不会只是剪辑出来的宣传视频?🧵 
直到最近有机会用自己的一段中文教学视频测试了一下,发现这模型还真是厉害,不仅音色还原的相当逼真,而且英语口语地道比我本人流利多了。

原版:https://x.com/dotey/status/1949024590857957583 
其实,用 AI 给视频做翻译配音这件事,一直都有技术团队在尝试,但很长一段时间都没有特别理想的方案,主要因为有两个问题特别难解决:

1. 精准控制语速和时长很难:  如果你翻译过字幕就知道,不同语言表达相同的意思,所需的时长常常不一样。如果翻译后的语句明显比原句长或短,就容易出现画面嘴巴动完了但声音还没完,或者声音已经结束了但嘴巴还在动,这种口型不一致的情况会很别扭。

2. 语音的情绪控制很难:  人的声音是有情感的,不同场景中的语音表达差别非常大。AI翻译配音不光要翻译准确,还得把原片中的情绪也一起传递过去,这一点很有挑战。比如 IndexTTS2 那段甄嬛传的配音视频,就很好地还原了皇后与皇帝对峙时声嘶力竭的情绪,特别有感染力。

那么,IndexTTS2 是怎么解决这些问题的?刚好,B站最近发了一篇论文,名字就叫《IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech》(英文论文链接  、中文解读链接  ),里面把技术细节讲得很清楚了,我简单概括一下我觉得最核心的两点。

第一个重要创新是精准控制生成的声音 Token 长度。

如果你熟悉大语言模型(LLM),就知道“Token”是AI生成文本时的最小单元;AI生成声音也类似,把声音拆成“声音Token”,只要精确控制生成声音Token的数量,就可以精确控制声音的长度,避免嘴型和声音不同步。论文里提供的数据是,这种方式的时长误差率可以控制在0.07%以下,非常精准。

简单打个比方,这就像用中英文双语演讲发言:Token数量决定了你发言声音的长度和节奏,只要事先计算好中文、英文演讲稿字数,就能确保声音的长短完美契合视频画面。

当然,并不是所有时候都需要这么严格控制,有些场景可能更希望AI自由发挥,所以IndexTTS2其实设计了“双模式”:严格控制长度的模式和自由发挥模式,可以根据具体需求灵活切换。

IndexTTS2 的第二个重要创新是把“音色”和“情绪”分离开来。

什么意思呢?以刚刚的《甄嬛传》为例,要生成皇后的哭诉片段,AI只需学习皇后平时正常的声音(音色),然后从已有的情绪素材库(开心、愤怒、伤心等)中调取“伤心”的情绪,加上文字描述就能实现。也就是说,AI不需要专门训练每个人各种情绪的声音,就能生成非常逼真的情绪效果。

如果再做个简单类比,这有点像画画的时候先确定基础色调(音色),然后再从调色板中随意调取需要的情绪色彩,任意组合即可实现想要的效果。这种设计的好处是,今后在用文字生成语音时,只要简单用括号标注一下情绪(如开心、难过、愤怒等),AI就能自动配合情绪生成相应的语音效果,非常方便。

论文里还有很多其他的技术细节,这里就不再赘述,有兴趣可以直接去读原文。
当然,对于大多数用户来说,更关心的还是怎么能用上这个技术。毕竟效果这么好的话,应用场景实在太多了:

比如我自己,一直想录一些英文教学视频,但英语口语不够自信,有了这个AI之后,我完全可以先录制中文的视频,再用IndexTTS2生成英文版本,效果专业又自然。

其他的场景还有有声书的制作、播客、多语言视频创作等等,相信你也能想到很多其他的应用方向:

- 比如你是美食博主,想让自己的美食教程被国外观众看到,有了这个技术就能轻松实现视频的多语言配音,扩大国际影响力;

- 再比如你是主播,平时制作一期播客耗时很长,但有了这个技术后,你只需用一种语言录制一次,其他语言版本自动完成,观众群一下子就扩大了好几倍;

- 甚至像B站这样,已经有UP主的视频能够自动生成英文版,选择英语为APP语言后,不仅视频、字幕、弹幕、评论都会自动翻译,整体体验全面升级。

就比如我关注的一位博主史蒂猪StevenPig,近一年的视频都已经支持中文和英文同步版本了,效果真的不错(目前该功能是在哔哩哔哩手机端 App 体验,感兴趣的话可以从手机端看看他的主页,还有一些其他博主的也支持了这种双语配音视频,我列在了文章末尾)。
更令人期待的是,论文中明确表示,后续将全面开源IndexTTS2的推理代码和模型权重,这意味着即使你不是UP主,也可以在自己的电脑上部署并使用这个强大的语音AI来辅助自己的学习、工作或日常生活:比如制作更专业的英语演讲、快速生成多语言的培训资料,甚至制作自己的有声读物等等。

而从平台角度来说,B站通过这个技术,无疑为未来海外市场的布局打下了一个非常扎实的基础——想象一下,随着越来越多的UP主的视频都能一键自动生成多语言版本,海外用户观看中文内容时的门槛将进一步降低,B站内容生态的海外拓展空间也将进一步被打开。
不知道你看到这里,是不是也和我一样开始有些期待了呢?如果你能拥有这样一位AI配音助手,第一个想要用它做的事情是什么?也欢迎留言和我分享你的奇思妙想~

附录

一些已经支持了双语视频的博主

所长Wy:
果蝇轰:
史蒂猪StevenPig:
33不是山山:
司马尘:
Paylaş
Keşfet

TweetCloner

TweetCloner, herhangi bir tweet'i veya diziyi klonlamanıza, çevirmenize ve yeni içeriğe dönüştürmenize ve saniyeler içinde yeniden yayınlamanıza olanak tanıyan X/Twitter için yaratıcı bir araçtır.

© 2024 TweetCloner Tüm hakları saklıdır.