引导“享乐主义”机器的人工智能先驱赢得了计算机科学的最高奖项

凌晨5点前禁止进入。周三

以动物驯兽师塑造狗或马的行为的方式来训练机器,一直是开发人工智能的重要方法,周三获得了最高计算机科学奖。

两位强化学习领域的先驱安德鲁·巴托和理查德·萨顿是今年A.M.的获奖者图灵奖,科技界的诺贝尔奖。

76岁的巴托和67岁的萨顿在20世纪70年代末开始的研究为过去十年人工智能的一些突破铺平了道路。他们工作的核心是引导所谓的“享乐主义”机器,这种机器可以不断调整自己的行为,以响应积极的信号。

2016年,一个b谷歌的计算机程序通过强化学习打败了中国古代棋盘游戏围棋。它也是改进ChatGPT等流行人工智能工具、优化金融交易和帮助机器人手解决问题的关键技术。

但巴托说,当他和他的博士生萨顿在马萨诸塞大学阿姆赫斯特分校开始构思他们的理论和算法时,这个领域“并不流行”。

巴托在接受美联社(the Associated Press)采访时说:“我们有点像在荒野里。”“这就是为什么我很高兴获得这个奖项,看到它越来越被认为是一个相关和有趣的东西。在早期,情况并非如此。”

美国计算机协会(Association for Computing Machinery)周三宣布,该奖项每年颁发100万美元。

巴托现已从马萨诸塞大学退休,萨顿长期在加拿大阿尔伯塔大学担任教授,他们并不是第一个以英国数学家、密码破译者和早期数学家命名的奖项。但他们的研究直接寻求回答图灵1947年提出的“可以从经验中学习”的机器——萨顿将其描述为“强化学习的基本思想”。

特别是,他们借鉴了心理学和神经科学中关于寻求快乐的神经元对奖励或惩罚的反应方式的观点。在20世纪80年代初发表的一篇具有里程碑意义的论文中,巴托和萨顿将他们的新方法应用于模拟世界中的一个特定任务:平衡一辆移动的手推车上的一根杆子,使其不掉下来。这两位计算机科学家后来共同撰写了一本被广泛使用的强化学习教科书。

b谷歌的首席科学家杰夫·迪恩在一份书面声明中表示:“他们开发的工具仍然是人工智能繁荣的核心支柱,取得了重大进展,吸引了大批年轻研究人员,并带动了数十亿美元的投资。”

在接受美联社联合采访时,巴托和萨顿并不总是就如何评估不断寻求自我提升的人工智能代理的风险达成一致。他们还将自己的工作与当前流行的生成式人工智能技术分支区分开来——OpenAI、b谷歌和其他科技巨头制造的聊天机器人背后的大型语言模型,这些机器人模仿人类写作和其他媒体。

“最大的选择是,你是尝试从人们的数据中学习,还是尝试从(人工智能)代理自己的生活和经验中学习?”萨顿说。

萨顿驳斥了他所说的对人工智能对人类威胁的过度担忧,而巴托不同意这种说法,他说:“你必须认识到潜在的意想不到的后果。”

退休14年的巴托称自己是一名卢德分子,而萨顿则在拥抱一个未来,他预计未来会有比现在人类更聪明的生物——这种想法有时被称为后人类主义。

“人是机器。萨顿说,它们是令人惊叹的、奇妙的机器”,但它们也不是“最终产品”,可以更好地工作。

萨顿说:“它本质上是人工智能企业的一部分。“我们在努力了解自己,当然,也在努力让事情变得更好。也许会变成这样。”