超真实的文本转语音模型 / 顺便说两句colab

先听听这段,是AI还是真人?

Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe.

至少我是分不出来是不是合成的。

项目源地址在这里:https://github.com/suno-ai/bark

我调试了一下,跟大家分享过程。顺便说说github和colab

运行代码

从github里的项目介绍中,能找到已经给出了Colab地址。

https://colab.research.google.com/drive/1eJfA2XUa-mXwdMy7DoYKVYHI1iTd9Vkt?usp=sharing

colab是啥,放到最后谈。先看测试过程。

代码分成Install,Basics和Examples三部分。非常简单,我们逐段运行就是了。

先点install边上的运行按钮。会下载几个G到十几G不等资源。所以需要多等几分钟。

注意到下载速度了吗?80-100MB/s。要是在家里弄,还得多等20分钟。

继续运行basics里的代码。下载12GB的资源。

看到前一步都完成之后,就可以运行自己的例子了。

先把text_prompt里的文字,改成你想要的信息,然后点左边的运行按钮。

结果出来是这样,第7秒之后才能听明白在说什么。

出错调试

出问题没关系,查查说明文档。

这里有个例子:audio_array = generate_audio(text_prompt, history_prompt=”en_speaker_1″)

audio_array可以加参数,指定speaker的语言。

照着改一下这里:

看,这次效果像样多了!

不过看起来这个模型对中文训练不太够。我试了zh 2和zh 3。这两位主播还是翻车了。

翻车音频,有点诡异。。。


最后,介绍一下colab

简单的说,要运行AI程序,需要数学计算能力很强的运行环境。你可以选择在家电脑上,装一块好一点的显卡。也可以选择租用。但是最方便的,就是google提供的colab。colab除了付费出租运算资源的服务之外,还会平衡自己的压力。在资源闲置的时候,给大家免费用。

所以一般测试的话,直接用colab就很理想了。不但能免费用上很强的GPU,而且网络环境也很稳定。在自己PC上做AI程序的朋友,肯定都有过因为网络干扰而持续浪费生命的经历。

今天这个例子就是直接在colab运行的。直接在web页面中,点击按钮,就可以执行这一段程序。也可以把代码复制一份,然后随意修改。

知识体系

之前做过一张脑图,梳理了想分享的内容的分类和关联。会分很多次讲,每次碰到什么好玩的东西,正好用到哪里,就会拿出来介绍一下。我也不知道什么时候能都讲完。

今天说的colab,就是红圈标注的这里。看下脑图,就知道知识点的在整体中的位置。可以帮助建立自己的知识体系。

 

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Time limit is exhausted. Please reload CAPTCHA.