前几天在 X 上刷到一段《让子弹飞》和《甄嬛传》的英语配音视频，音色逼真、英语流利到我以为是真人配的，后来才发现原来是用

前几天在 X 上刷到一段《让子弹飞》和《甄嬛传》的英语配音视频，音色逼真、英语流利到我以为是真人配的，后来才发现原来是用 B站新发布的 IndexTTS2 文本转语音模型做的。当时心里还打了个小问号，这么好的效果会不会只是剪辑出来的宣传视频？🧵

直到最近有机会用自己的一段中文教学视频测试了一下，发现这模型还真是厉害，不仅音色还原的相当逼真，而且英语口语地道比我本人流利多了。

原版：https://x.com/dotey/status/1949024590857957583

其实，用 AI 给视频做翻译配音这件事，一直都有技术团队在尝试，但很长一段时间都没有特别理想的方案，主要因为有两个问题特别难解决：

1. 精准控制语速和时长很难：  如果你翻译过字幕就知道，不同语言表达相同的意思，所需的时长常常不一样。如果翻译后的语句明显比原句长或短，就容易出现画面嘴巴动完了但声音还没完，或者声音已经结束了但嘴巴还在动，这种口型不一致的情况会很别扭。

2. 语音的情绪控制很难：  人的声音是有情感的，不同场景中的语音表达差别非常大。AI翻译配音不光要翻译准确，还得把原片中的情绪也一起传递过去，这一点很有挑战。比如 IndexTTS2 那段甄嬛传的配音视频，就很好地还原了皇后与皇帝对峙时声嘶力竭的情绪，特别有感染力。

那么，IndexTTS2 是怎么解决这些问题的？刚好，B站最近发了一篇论文，名字就叫《IndexTTS2: A Breakthrough in Emotionally Expressive and Duration-Controlled Auto-Regressive Zero-Shot Text-to-Speech》（英文论文链接  、中文解读链接  ），里面把技术细节讲得很清楚了，我简单概括一下我觉得最核心的两点。

第一个重要创新是精准控制生成的声音 Token 长度。

如果你熟悉大语言模型（LLM），就知道“Token”是AI生成文本时的最小单元；AI生成声音也类似，把声音拆成“声音Token”，只要精确控制生成声音Token的数量，就可以精确控制声音的长度，避免嘴型和声音不同步。论文里提供的数据是，这种方式的时长误差率可以控制在0.07%以下，非常精准。

简单打个比方，这就像用中英文双语演讲发言：Token数量决定了你发言声音的长度和节奏，只要事先计算好中文、英文演讲稿字数，就能确保声音的长短完美契合视频画面。

当然，并不是所有时候都需要这么严格控制，有些场景可能更希望AI自由发挥，所以IndexTTS2其实设计了“双模式”：严格控制长度的模式和自由发挥模式，可以根据具体需求灵活切换。

IndexTTS2 的第二个重要创新是把“音色”和“情绪”分离开来。

什么意思呢？以刚刚的《甄嬛传》为例，要生成皇后的哭诉片段，AI只需学习皇后平时正常的声音（音色），然后从已有的情绪素材库（开心、愤怒、伤心等）中调取“伤心”的情绪，加上文字描述就能实现。也就是说，AI不需要专门训练每个人各种情绪的声音，就能生成非常逼真的情绪效果。

如果再做个简单类比，这有点像画画的时候先确定基础色调（音色），然后再从调色板中随意调取需要的情绪色彩，任意组合即可实现想要的效果。这种设计的好处是，今后在用文字生成语音时，只要简单用括号标注一下情绪（如开心、难过、愤怒等），AI就能自动配合情绪生成相应的语音效果，非常方便。

论文里还有很多其他的技术细节，这里就不再赘述，有兴趣可以直接去读原文。

当然，对于大多数用户来说，更关心的还是怎么能用上这个技术。毕竟效果这么好的话，应用场景实在太多了：

比如我自己，一直想录一些英文教学视频，但英语口语不够自信，有了这个AI之后，我完全可以先录制中文的视频，再用IndexTTS2生成英文版本，效果专业又自然。

其他的场景还有有声书的制作、播客、多语言视频创作等等，相信你也能想到很多其他的应用方向：

- 比如你是美食博主，想让自己的美食教程被国外观众看到，有了这个技术就能轻松实现视频的多语言配音，扩大国际影响力；

- 再比如你是主播，平时制作一期播客耗时很长，但有了这个技术后，你只需用一种语言录制一次，其他语言版本自动完成，观众群一下子就扩大了好几倍；

- 甚至像B站这样，已经有UP主的视频能够自动生成英文版，选择英语为APP语言后，不仅视频、字幕、弹幕、评论都会自动翻译，整体体验全面升级。

就比如我关注的一位博主史蒂猪StevenPig，近一年的视频都已经支持中文和英文同步版本了，效果真的不错（目前该功能是在哔哩哔哩手机端 App 体验，感兴趣的话可以从手机端看看他的主页，还有一些其他博主的也支持了这种双语配音视频，我列在了文章末尾）。

更令人期待的是，论文中明确表示，后续将全面开源IndexTTS2的推理代码和模型权重，这意味着即使你不是UP主，也可以在自己的电脑上部署并使用这个强大的语音AI来辅助自己的学习、工作或日常生活：比如制作更专业的英语演讲、快速生成多语言的培训资料，甚至制作自己的有声读物等等。

而从平台角度来说，B站通过这个技术，无疑为未来海外市场的布局打下了一个非常扎实的基础——想象一下，随着越来越多的UP主的视频都能一键自动生成多语言版本，海外用户观看中文内容时的门槛将进一步降低，B站内容生态的海外拓展空间也将进一步被打开。

不知道你看到这里，是不是也和我一样开始有些期待了呢？如果你能拥有这样一位AI配音助手，第一个想要用它做的事情是什么？也欢迎留言和我分享你的奇思妙想～

附录

一些已经支持了双语视频的博主

所长Wy：
果蝇轰：
史蒂猪StevenPig：
33不是山山：
司马尘：

宝玉