AI Tom Hanks 没有给我一份工作，但听起来他确实给了我一份工作

[ad_1]

汤姆汉克斯不只是打电话给我推销我的角色，但听起来确实如此。

自从 PCWorld 开始报道 AI 艺术等各种 AI 应用程序的兴起以来，我一直在 GitHub 的代码存储库和 Reddit 中的链接中四处寻找，人们会在其中发布针对各种方法对自己的 AI 模型进行的调整。

其中一些模型实际上最终出现在商业网站上，这些网站要么推出自己的算法，要么改编其他已作为开源发布的算法。现有 AI 音频网站的一个很好的例子是 Uberduck.ai，它提供了数百种预编程模型。在文本字段中输入文本，您可以让虚拟的 Elon Musk、Bill Gates、Peggy Hill、Daffy Duck、Alex Trebek、Beavis、The Joker，甚至 Siri 读出您的预编程台词。

去年我们上传了一个假的比尔克林顿赞美 PCWorld，这个模型听起来已经很不错了。

训练 AI 重现语音涉及上传清晰的语音样本。人工智能“学习”说话者如何将声音与目标结合起来，学习这些关系，完善它们，并模仿结果。如果您熟悉 1992 年出色的惊悚片 运动鞋 （由罗伯特·雷德福、西德尼·波蒂埃和本·金斯利等全明星阵容出演），那么你就会知道角色需要通过录制目标声音的语音样本来“破解”生物识别语音密码的场景. 这几乎是一回事。

通常，组装一个好的语音模型需要大量的训练，用很长的样本来表明一个人是如何说话的。然而，在过去的几天里，出现了一些新东西：Microsoft Vall-E，一篇关于合成语音的研究论文（带有实例），只需几秒钟的源音频即可生成完全可编程的语音。

自然地，AI 研究人员和其他 AI 追星族想知道 Vall-E 模型是否已经向公众发布。答案是否定的，尽管您可以根据需要使用另一种模型，称为 Tortoise。（作者指出，它之所以被称为 Tortoise，是因为它很慢，确实如此，但它确实有效。）

用 Tortoise 训练你自己的 AI 声音

Tortoise 的有趣之处在于，您只需上传一些音频片段，就可以根据您选择的任何声音来训练模型。 Tortoise GitHub 页面指出，您应该有一些大约十几秒的剪辑。您需要将它们保存为具有特定质量的 .WAV 文件。

它是怎么运行的？通过您可能不知道的公用事业：Google Colab。从本质上讲，Collab 是 Google 提供的一种云服务，允许访问 Python 服务器。您（或其他人）编写的代码可以存储为笔记本，可以与拥有通用 Google 帐户的用户共享。 Tortoise 共享资源在这里。

该界面看起来令人生畏，但还不错。您需要以 Google 用户身份登录，然后点击右上角的“连接”。一句警告。虽然此 Colab 不会将任何内容下载到您的 Google 云端硬盘，但其他 Colab 可能会。（不过，它生成的音频文件存储在浏览器中，但可以下载到您的 PC 上。）请注意，您正在运行其他人编写的代码。您可能会收到错误消息，要么是因为输入错误，要么是因为 Google 在后端出现问题，例如没有可用的 GPU。这有点实验性。

乌龟合作。单击“连接”按钮开始，然后依次单击每个代码块旁边的小“播放”图标。

马克·哈克曼 / IDG

如果将鼠标悬停在每个代码块上，就会出现一个小的“播放”图标。您需要在每个代码块上单击“播放”以运行它，等待每个代码块执行完毕后再运行下一个代码块。

虽然我们不打算逐步完成所有功能的详细说明，但请注意，红色文本是用户可修改的，例如您希望模型说出的建议文本。向下大约七个街区，您可以选择训练模型。您需要为模型命名，然后上传音频文件。完成后，在第四块中选择新的音频模型，运行代码，然后在第三块中配置文本。跑步那代码块。

如果一切按计划进行，您将获得样本声音的小音频输出。它有效吗？好吧，我为我的同事 Gordon Mah Ung 做了一个快速而简单的语音模型，他的作品出现在我们的 The Full Nerd 播客和各种视频中。我上传了一个几分钟的示例而不是简短的片段，只是为了看看它是否有效。

结果？嗯，它声音栩栩如生，但一点也不像戈登。他现在肯定不会受到数字冒充。（这也不代表任何快餐连锁店。）