[ad_1]
汤姆汉克斯不只是打电话给我推销我的角色,但听起来确实如此。
自从 PCWorld 开始报道 AI 艺术等各种 AI 应用程序的兴起以来,我一直在 GitHub 的代码存储库和 Reddit 中的链接中四处寻找,人们会在其中发布针对各种方法对自己的 AI 模型进行的调整。
其中一些模型实际上最终出现在商业网站上,这些网站要么推出自己的算法,要么改编其他已作为开源发布的算法。 现有 AI 音频网站的一个很好的例子是 Uberduck.ai,它提供了数百种预编程模型。 在文本字段中输入文本,您可以让虚拟的 Elon Musk、Bill Gates、Peggy Hill、Daffy Duck、Alex Trebek、Beavis、The Joker,甚至 Siri 读出您的预编程台词。
去年我们上传了一个假的比尔克林顿赞美 PCWorld,这个模型听起来已经很不错了。
训练 AI 重现语音涉及上传清晰的语音样本。 人工智能“学习”说话者如何将声音与目标结合起来,学习这些关系,完善它们,并模仿结果。 如果您熟悉 1992 年出色的惊悚片 运动鞋 (由罗伯特·雷德福、西德尼·波蒂埃和本·金斯利等全明星阵容出演),那么你就会知道角色需要通过录制目标声音的语音样本来“破解”生物识别语音密码的场景. 这几乎是一回事。
通常,组装一个好的语音模型需要大量的训练,用很长的样本来表明一个人是如何说话的。 然而,在过去的几天里,出现了一些新东西:Microsoft Vall-E,一篇关于合成语音的研究论文(带有实例),只需几秒钟的源音频即可生成完全可编程的语音。
自然地,AI 研究人员和其他 AI 追星族想知道 Vall-E 模型是否已经向公众发布。 答案是否定的,尽管您可以根据需要使用另一种模型,称为 Tortoise。 (作者指出,它之所以被称为 Tortoise,是因为它很慢,确实如此,但它确实有效。)
用 Tortoise 训练你自己的 AI 声音
Tortoise 的有趣之处在于,您只需上传一些音频片段,就可以根据您选择的任何声音来训练模型。 Tortoise GitHub 页面指出,您应该有一些大约十几秒的剪辑。 您需要将它们保存为具有特定质量的 .WAV 文件。
它是怎么运行的? 通过您可能不知道的公用事业:Google Colab。 从本质上讲,Collab 是 Google 提供的一种云服务,允许访问 Python 服务器。 您(或其他人)编写的代码可以存储为笔记本,可以与拥有通用 Google 帐户的用户共享。 Tortoise 共享资源在这里。
该界面看起来令人生畏,但还不错。 您需要以 Google 用户身份登录,然后点击右上角的“连接”。 一句警告。 虽然此 Colab 不会将任何内容下载到您的 Google 云端硬盘,但其他 Colab 可能会。 (不过,它生成的音频文件存储在浏览器中,但可以下载到您的 PC 上。)请注意,您正在运行其他人编写的代码。 您可能会收到错误消息,要么是因为输入错误,要么是因为 Google 在后端出现问题,例如没有可用的 GPU。 这有点实验性。
马克·哈克曼 / IDG
如果将鼠标悬停在每个代码块上,就会出现一个小的“播放”图标。 您需要在每个代码块上单击“播放”以运行它,等待每个代码块执行完毕后再运行下一个代码块。
虽然我们不打算逐步完成所有功能的详细说明,但请注意,红色文本是用户可修改的,例如您希望模型说出的建议文本。 向下大约七个街区,您可以选择训练模型。 您需要为模型命名,然后上传音频文件。 完成后,在第四块中选择新的音频模型,运行代码,然后在第三块中配置文本。 跑步 那 代码块。
如果一切按计划进行,您将获得样本声音的小音频输出。 它有效吗? 好吧,我为我的同事 Gordon Mah Ung 做了一个快速而简单的语音模型,他的作品出现在我们的 The Full Nerd 播客和各种视频中。 我上传了一个几分钟的示例而不是简短的片段,只是为了看看它是否有效。
结果? 嗯,它 声音 栩栩如生,但一点也不像戈登。 他现在肯定不会受到数字冒充。 (这也不代表任何快餐连锁店。)
但是 Tortoise 作者在演员汤姆汉克斯身上训练的现有模型听起来不错。 这不是汤姆·汉克斯在这里说话! 汤姆也做过 不是 给我一份工作,但这足以愚弄至少我的一个朋友。
结论? 这有点可怕:相信我们听到(很快看到)的时代即将结束。 或者已经有了。
[ad_2]
Source link