GPT-4“王炸”发布:专业和学术水平接近人类,做个网站只用了1秒

出境入境2024-03-21 04:58小乐

GPT-4“王炸”发布:专业和学术水平接近人类,做个网站只用了1秒

02:19

视频加载中.

GPT-4 1秒生成网站论文编辑李耀睿(02:19)

ChatGPT 的受欢迎程度并没有消散。 ChatGPT的开发商OpenAI发布了更强大的GPT-4,堪称“炸弹王”产品。

当地时间3月14日,OpenAI公开发布了大规模多模态模型GPT-4。与ChatGPT使用的模型相比,GPT-4不仅可以处理图像内容,还可以提高响应的准确性。目前,GPT-4没有免费版本,仅向ChatGPT Plus的付费订阅者以及企业和开发者开放。

来源:OpenAI官网

“这是OpenAI 拓展深度学习努力的最新里程碑。” OpenAI介绍,GPT-4在专业和学术方面都展现了接近人类的表现。例如,它在模拟律师考试中的成绩可以排在前10%。相比之下,GPT-3.5的得分只能排在倒数10%。

与之前的GPT系列型号相比,GPT-4最大的突破之一是除了文本之外还能够处理图像内容。 OpenAI表示,当用户同时输入文本和图像时,它可以生成自然语言和代码等文本。

图像处理功能尚未公开,但该公司已在其官网展示了一系列案例。例如,输入下面的图片并询问“这张图片有什么不寻常的地方?” GPT-4 可以回答“这张图片的不同寻常之处在于,一个男人在一辆行驶中的出租车的车顶上,使用熨衣板熨烫衣服。”

来源:OpenAI官网

在官方演示中,GPT-4几乎只用了1-2秒就可以识别手绘网站图片,并根据要求实时生成网页代码,创建出与手绘版本几乎一样的网站。

除了普通图片之外,GPT-4还可以处理更复杂的图像信息,包括表格、考题截图、论文截图、漫画等,比如根据专业论文直接提供论文摘要和要点。

GPT-4可以解读论文来源:OpenAI官网

与之前的模型相比,GPT-4 的准确性有所提高。 OpenAI 表示,该公司利用从对抗性测试程序和ChatGPT 中吸取的经验教训,花了六个月的时间迭代调整GPT-4,从而在真实性、可操作性和超出设定限制的拒绝方面取得了有史以来最好的结果。因此,“至少对我们来说,GPT-4 训练运行得比以往更加稳定,成为第一个能够提前准确预测其训练性能的大型模型。”

OpenAI 表示,在公司内部的对抗性真实性评估中,GPT-4 的得分比最新的GPT-3.5 高出40%,相应的“不允许内容请求的倾向”降低了82%,按照政策响应敏感请求(例如医疗建议和自残)增加了29%。

该模型在多种语言上显示出优越性,而不仅仅是英语。 OpenAI 表示,在测试的26 种语言中,GPT-4 在24 种语言中的表现优于GPT-3.5 等其他大型语言模型的英语语言表现。其中,GPT-4的中文准确率可以达到80.1%,而GPT-3.5的英文准确率只有70.1%,而GPT-4的英文准确率则提升到了85.5%。

来源:OpenAI官网

然而,与早期的GPT 模型一样,GPT-4 仍然存在一定的局限性。

OpenAI表示,它并不完全可靠,可能会出现推理错误。 “GPT-4 缺乏对绝大多数数据被切断后(2021 年9 月)发生的事件的理解,无法从中学习……它有时会犯简单的推理错误,它会相信用户明显的歪曲事实,并且它有时会像人类一样在解决难题时失败,例如在它生成的代码中引入安全漏洞。”

基于此,OpenAI 提醒用户在使用语言模型时要格外小心。最好协助手动审查,附加上下文,或完全避免在高风险情况下使用它。

值得注意的是,虽然GPT-4在14日才正式公开,但微软的新搜索引擎Bing早在一个月前就已经在GPT-4上运行。微软表示,“如果你在过去五周内的任何时候使用过新版Bing,那么你就已经体验过早期版本的GPT-4。”

与免费的ChatGPT 不同,GPT-4 目前仅向ChatGPT Plus 的付费用户开放。它还将作为API(应用程序编程接口)提供给企业和开发人员。开发人员需要进入等待名单才能将模型集成到他们的应用程序中。

OpenAI表示,许多公司已将GPT-4应用到他们的产品中,包括语言学习工具软件Duolingo、移动支付公司Stripe和Khan Academy。

猜你喜欢