考试中击败90%的人类!GPT升级了:更可靠、更有创造力

出境入境2024-03-21 05:12小乐

考试中击败90%的人类!GPT升级了:更可靠、更有创造力

编辑:毕路明

凭借ChatGPT 掀起人工智能(AI)应用热潮的OpenAI 发布了最新作品——GPT-4。新型号支持的ChatGPT将会升级。

当地时间周二(3月14日),人工智能研究公司OpenAI公布了其大规模语言模型——GPT-4的最新版本。该公司表示,GPT-4 在许多专业测试中的表现优于绝大多数人类。 OpenAI 还表示,GPT-4 参加了多种基准考试,包括统一律师考试、LSAT、SAT 数学部分以及“美国高考”的证据阅读和写作部分。在这些测试中,它的得分高于88% 的考生。

OpenAI 推出GPT-4 OpenAI 周二表示,在内部评估中,GPT-4 产生正确响应的可能性比GPT-3.5 高出40%。此外,GPT-4是多模式的,支持文本和图像输入功能。 OpenAI 表示,GPT-4 比以前的版本“更大”,这意味着它接受了更多数据的训练,并且模型文件中的权重更多,从而使其运行成本更高。

OpenAI 表示,在某些情况下,GPT-4 比之前的GPT-3.5 版本有巨大改进。新模型将产生更少的错误答案,更少偏离对话轨迹,更少谈论禁忌话题,甚至在许多标准化测试中表现得比人类更好。

例如,GPT-4 在模拟律师考试中排名前10%,在SAT 阅读考试中排名前7%,在SAT 数学考试中排名前11%。

OpenAI 表示,它已与多家公司合作,将GPT-4 纳入其产品中,其中包括Duolingo、Stripe 和Khan Academy。 GPT-4模型还将以API的形式提供给ChatGPT Plus付费版本的订阅者。开发人员可以注册并使用它构建应用程序。微软随后表示,新的Bing搜索引擎将运行在GPT-4系统上。

OpenAI 表示,虽然这两个版本在日常对话中看起来很相似,但当任务复杂度达到一定程度时,差异就会显现出来。 GPT-4 更可靠,更有创意,能够处理更微妙的指令。 “根据我们的内部评估,它产生正确响应的可能性比GPT-3.5 高出40%。”

在上面的示例中,您可以看到GPT-4 系统如何响应图像输入,例如解释图像的不寻常之处、图像的幽默之处以及有趣图像的目的(如上面的屏幕截图所示)

不过,OpenAI 也警告称,GPT-4 尚不完美,很多情况下其能力还不如人类。该公司表示:“GPT-4 仍然存在一些我们正在努力解决的已知局限性,例如社会偏见、幻觉和对抗性线索。”

OpenAI 透露,摩根士丹利正在使用GPT-4 来组织数据,而电子支付公司Stripe 正在测试GPT-4 是否可以帮助打击欺诈。其他客户包括语言学习公司Duolingo、可汗学院和冰岛政府。

OpenAI 合作伙伴微软周二表示,其新版Bing 搜索引擎将使用GPT-4。

OpenAI联合创始人:未来,AI首先会取代基于认知的工作。据每日经济新闻3月14日报道,当地时间3月10日至19日,西南偏南多元化创新大会暨艺术节(SXSW)在美国举行。在德克萨斯州奥斯汀举行。如果说去年SXSW 的主题是Web3、NFT 和元宇宙,那么今年SXSW 显然呈现出完全不同的场景,ChatGPT 几乎成为贯穿每场活动的话题。

图片来源:视觉中国

3月10日,OpenAI联合创始人兼总裁格雷格·布罗克曼在当天举行的活动上接受了外媒专访。在长达一个小时的谈话中,Brockman 谈到了许多与ChatGPT 和人工智能(AI) 相关的话题。那天,会场挤满了人,观众们不时因为格雷格的演讲而发出欢呼声。

和许多人一样,布罗克曼想象未来的通用人工智能将对人类产生颠覆性影响。他认为,未来AI将更像是一个全天候助手,可以“放大”人的能力,帮助人类获得新的想法。

“想想今天,每个人都在看同一部电视节目,也许人们正在看《权力的游戏》的最终季,”他说,“但想象一下,如果你能让你的AI 以不同的方式来做,甚至有可能沉浸其中自己作为主角,进行互动体验。”

在此之前,包括布罗克曼本人在内的许多人都认为人工智能将开始取代人类的一些体力劳动,但今天事实恰恰相反。布罗克曼在对话中表示,未来人类基于认知的任务将首先被机器取代,比如内容审核。因此,在AI浪潮中,人类需要更高水平的技能、判断力、认知。

每日经济新闻综合日报网(记者:文乔)、OpenAI官网

每日经济新闻

猜你喜欢