人工智能居然可以通过“看视频”预测人类行为

根据一个人的肢体语言来预测他下一步要做什么对人类来说很自然，但对电脑来说则不然。当我们遇见另一个人时，他们可能会和我们打招呼、握手甚至是碰拳，我们可以了解情况并适当地做出反应。

在一项新的研究中，哥伦比亚工程学院的研究人员公布了一种计算机视觉技术，这项技术通过利用人、动物和物体之间更高层次的联系，让人工智能对接下来将发生的事情有更直观的感觉。

这项研究的负责人，哥伦比亚大学计算机科学助理教授Carl Vondrick表示:“新算法朝着人工智能向更好地预测人类行为迈出了一步，更好地协调它们的行动。我们的研究结果将为人机合作、智能驾驶和辅助技术开辟更多种可能性。”

研究人员称，这种技术是迄今为止预测未来几分钟内视频动作事件最准确的方法。在分析了长达数千小时的电影、体育比赛和电视剧节目后，该系统学会预测从握手到亲吻等数百种活动。而当它无法预测具体的动作时，它会找到更高层次的概念来联系他们。

过去在预测性机器学习方面的尝试，都集中在一次只预测一个动作。算法决定是否将动作归类为拥抱、击掌、握手，甚至是像“忽略”这样的非动作。但当不确定性很高时，大多数机器学习模型无法在可能的选项之间找到共性。

哥伦比亚大学工程学博士Didac Suris和Rushi Liu决定从一个不同的角度来研究长期预测问题。“并不是所有的事情在未来都是可以预测的，当一个人无法准确预测将要发生的事情时，他们会谨慎行事，并以更高的抽象层次进行预测。我们的算法是第一个学习抽象推理未来事件能力的算法。”

研究人员说，这项技术可以让人工智能更接近于能够判断情况并做出细微的决定，而不是预先编程的行动。这是在人类和计算机之间建立信任的关键一步。“信任来自于机器人真正理解人类的感觉，如果机器能够理解并预测我们的行为，计算机将能够在日常活动中无缝地帮助人们。”Liu 说。

虽然新算法比以前的方法对基准任务做出了更准确的预测，但接下来的步骤是验证它在实验室之外的工作。

研究人员表示，如果该系统可以在多种环境下工作，那么部署机器和机器人的可能性就大很多，这可能会改善我们的健康和安全。该小组计划继续利用更大的数据集、计算机和其他形式的几何图形来改进算法的性能。