随着所有关于 ChatGPT 等聊天机器人的讨论,很容易忘记基于文本的聊天只是众多 AI 功能之一。理想的生成式 AI 将能够根据需要跨不同的模型工作,解释和生成图像、音频和视频。
进入 Jarvis,这是 Microsoft 的一个新项目,它承诺一个机器人可以所有人。Jarvis 使用 ChatGPT 作为系统的控制器,它可以根据需要使用各种其他模型来响应您的提示。在一篇论文中(在新标签页中打开)由康奈尔大学出版,微软研究人员(Yongliang Shen、Kaitao Song、Xu Tan、Dongsheng Li、Weiming Lu 和 Yueting Zhuang)解释了这个框架是如何工作的。用户向机器人发出请求,它计划任务,选择它需要的模型,让这些模型执行任务,然后生成并发出响应。
研究论文中提供的下图显示了这个过程在现实世界中的运作方式。用户要求机器人创建一个女孩正在读书的图像,并且她的位置与男孩在样本图像中的位置相同。机器人计划任务,使用一个模型来解释原始图像中男孩的姿势,然后部署另一个模型来绘制输出。