南洋理工打造任务数据集和测试基准,提高网页智能体任务完成能力

新闻资讯2024-08-13 22:21小乐

南洋理工打造任务数据集和测试基准,提高网页智能体任务完成能力

最近,南洋理工大学实习生张子牛和他的团队通过使用GPT-4v和Gemini-pro等大型模型发现,目前网页代理的能力仍然非常缺乏,特别是在完成混合多个任务时子任务。为了提高智能体对网页的操作能力,研究团队创建了任务数据集并进行了基准测试。借助这个数据集,智能体需要处理多模态的网页信息,通过对不同网页的操作来完成任务,从而更加贴近人们在真实情况下对网页的操作。同时,团队发现该智能体存在较大的内存缺陷,严重影响了多跳问题的准确性。对此,他们提出了一种内存模块来改善上述问题。总体而言,这一结果将提高Agent的任务完成能力,并为后续工作提供测试基准。据介绍,这一成果是一系列作品之一。最初,张子牛、田树林、陈良宇等人复现了美国卡内基梅隆大学团队创建的单跳单模态测试基准Webarena。后来,通过仔细分析Webarena的任务能力和代理完成任务的情况,他们发现还有很多值得探索的地方。例如,为什么任务不够现实?为什么智能代理的能力比较匮乏?通过阅读与网络代理相关的其他论文。该团队考虑将任务从单一模式扩展到多模式。以前,当网络代理处理网页上的信息时,他们通常不仅仅查看文本。为此,他们尝试从一些包含图像的在线网站中提取图像信息,例如一些美术馆的官方网站。然而,由于自身的保护措施,许多网页无法从HTML 文件中提取图像信息。后来,他们转向从购物网站和维基百科中提取图像信息,并为网络代理创建了一些多模态任务。随后,团队将任务扩展为多跳任务,并决定以出行任务为例进行研究。然后他们在数据集上测试了代理。在处理视觉信息方面,他们也采用了多种方法:例如直接提供图片作为提示给Agent,或者先提供图片给多模态大模型进行处理,然后将处理结果合并给Agent,在此期间,他们发现之前使用的整体任务评估方法并不适合多跳任务。因此,他们提出了一种新的多跳任务评估方法。在分析Agent的实验结果时,发现Agent的记忆能力很差,因此提出了记忆增强模块来提高Agent的能力,并对此进行了消融实验。最近,一篇相关论文发布在arXiv 上,标题为《MMInA:多跳多模态互联网代理基准测试》 (MMInA: Benchmarking Multihop Multimodal Internet Agents)。

图|相关论文(来源:arXiv)

同时,团队也在关注网络代理的最新动态。未来,研究团队可能计划提供整个网页的屏幕截图作为代理的输入。

猜你喜欢