先听听这段,是AI还是真人?
Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe.
至少我是分不出来是不是合成的。
项目源地址在这里:https://github.com/suno-ai/bark
我调试了一下,跟大家分享过程。顺便说说github和colab
运行代码
从github里的项目介绍中,能找到已经给出了Colab地址。
https://colab.research.google.com/drive/1eJfA2XUa-mXwdMy7DoYKVYHI1iTd9Vkt?usp=sharing
colab是啥,放到最后谈。先看测试过程。
代码分成Install,Basics和Examples三部分。非常简单,我们逐段运行就是了。
先点install边上的运行按钮。会下载几个G到十几G不等资源。所以需要多等几分钟。
注意到下载速度了吗?80-100MB/s。要是在家里弄,还得多等20分钟。
继续运行basics里的代码。下载12GB的资源。
看到前一步都完成之后,就可以运行自己的例子了。
先把text_prompt里的文字,改成你想要的信息,然后点左边的运行按钮。
结果出来是这样,第7秒之后才能听明白在说什么。
出错调试
出问题没关系,查查说明文档。
这里有个例子:audio_array = generate_audio(text_prompt, history_prompt=”en_speaker_1″)
audio_array可以加参数,指定speaker的语言。
照着改一下这里:
看,这次效果像样多了!
不过看起来这个模型对中文训练不太够。我试了zh 2和zh 3。这两位主播还是翻车了。
翻车音频,有点诡异。。。
最后,介绍一下colab
简单的说,要运行AI程序,需要数学计算能力很强的运行环境。你可以选择在家电脑上,装一块好一点的显卡。也可以选择租用。但是最方便的,就是google提供的colab。colab除了付费出租运算资源的服务之外,还会平衡自己的压力。在资源闲置的时候,给大家免费用。
所以一般测试的话,直接用colab就很理想了。不但能免费用上很强的GPU,而且网络环境也很稳定。在自己PC上做AI程序的朋友,肯定都有过因为网络干扰而持续浪费生命的经历。
今天这个例子就是直接在colab运行的。直接在web页面中,点击按钮,就可以执行这一段程序。也可以把代码复制一份,然后随意修改。
知识体系
之前做过一张脑图,梳理了想分享的内容的分类和关联。会分很多次讲,每次碰到什么好玩的东西,正好用到哪里,就会拿出来介绍一下。我也不知道什么时候能都讲完。
今天说的colab,就是红圈标注的这里。看下脑图,就知道知识点的在整体中的位置。可以帮助建立自己的知识体系。