[ad_1]
文章:
1个
在线视频是大量未开发的训练数据来源——OpenAI 表示它有一种使用它的新方法。
OpenAI 通过观看人们玩这款流行电脑游戏的 70,000 小时视频,构建了迄今为止最好的玩 Minecraft 的机器人。 它展示了一种强大的新技术,可用于训练机器执行广泛的任务,方法是浏览 YouTube 等网站,这是一个巨大且未开发的训练数据来源。
Minecraft AI 学会了执行复杂的键盘和鼠标点击序列来完成游戏中的任务,例如砍伐树木和制作工具。 它是第一个可以制作所谓钻石工具的机器人,优秀的人类玩家通常需要 20 分钟的高速点击或大约 24,000 次操作才能完成这项任务。
结果是一种称为模仿学习的技术取得了突破,在这种技术中,神经网络被训练如何通过观察人类执行任务来执行任务。 模仿学习可用于训练 AI 控制机器人手臂、驾驶汽车或浏览网页。
网上有大量视频显示人们在执行不同的任务。 通过利用这一资源,研究人员希望能够像 GPT-3 对大型语言模型所做的那样进行模仿学习。 “在过去的几年里,我们看到了这种 GPT-3 范式的兴起,我们看到惊人的能力来自在大量互联网上训练的大型模型,”新 Minecraft 背后的团队之一 OpenAI 的 Bowen Baker 说。机器人。 “这在很大程度上是因为我们正在模拟人们上网时的行为。”
现有的模仿学习方法的问题在于视频演示需要在每个步骤中进行标记:做这个动作会发生这种情况,做那个动作会发生这种情况,等等。 以这种方式手动注释需要大量工作,因此此类数据集往往很小。 Baker 和他的同事们想找到一种方法,将数以百万计的在线视频转化为新的数据集。
该团队的方法称为视频预训练 (VPT),通过训练另一个神经网络自动标记视频来绕过模仿学习的瓶颈。 他们首先雇用众包人员来玩 Minecraft,并在屏幕视频旁边记录他们的键盘和鼠标点击。 这为研究人员提供了 2000 小时带注释的 Minecraft 游戏时间,他们用这些时间训练模型以将动作与屏幕结果相匹配。 例如,在特定情况下单击鼠标按钮会使角色挥动斧头。
下一步是使用此模型为从互联网上获取的 70,000 小时未标记视频生成动作标签,然后在这个更大的数据集上训练 Minecraft 机器人。
[ad_2]
Source link