超真实的文本转语音模型 / 顺便说两句colab

先听听这段，是AI还是真人？

Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe.

至少我是分不出来是不是合成的。

我调试了一下，跟大家分享过程。顺便说说github和colab

运行代码

从github里的项目介绍中，能找到已经给出了Colab地址。

colab是啥，放到最后谈。先看测试过程。

代码分成Install，Basics和Examples三部分。非常简单，我们逐段运行就是了。

先点install边上的运行按钮。会下载几个G到十几G不等资源。所以需要多等几分钟。

注意到下载速度了吗？80-100MB/s。要是在家里弄，还得多等20分钟。

继续运行basics里的代码。下载12GB的资源。

看到前一步都完成之后，就可以运行自己的例子了。

先把text_prompt里的文字，改成你想要的信息，然后点左边的运行按钮。

结果出来是这样，第7秒之后才能听明白在说什么。

出问题没关系，查查说明文档。

这里有个例子：audio_array = generate_audio(text_prompt, history_prompt=”en_speaker_1″)

audio_array可以加参数，指定speaker的语言。

照着改一下这里：

看，这次效果像样多了！

不过看起来这个模型对中文训练不太够。我试了zh 2和zh 3。这两位主播还是翻车了。

翻车音频，有点诡异。。。

简单的说，要运行AI程序，需要数学计算能力很强的运行环境。你可以选择在家电脑上，装一块好一点的显卡。也可以选择租用。但是最方便的，就是google提供的colab。colab除了付费出租运算资源的服务之外，还会平衡自己的压力。在资源闲置的时候，给大家免费用。

所以一般测试的话，直接用colab就很理想了。不但能免费用上很强的GPU，而且网络环境也很稳定。在自己PC上做AI程序的朋友，肯定都有过因为网络干扰而持续浪费生命的经历。

今天这个例子就是直接在colab运行的。直接在web页面中，点击按钮，就可以执行这一段程序。也可以把代码复制一份，然后随意修改。

之前做过一张脑图，梳理了想分享的内容的分类和关联。会分很多次讲，每次碰到什么好玩的东西，正好用到哪里，就会拿出来介绍一下。我也不知道什么时候能都讲完。

今天说的colab，就是红圈标注的这里。看下脑图，就知道知识点的在整体中的位置。可以帮助建立自己的知识体系。