OpenAI推出GPT-4,SAT数学超过89%人类考生,法律考试超过90%考生 open sat

出境入境2024-03-26 23:53小乐

OpenAI推出GPT-4,SAT数学超过89%人类考生,法律考试超过90%考生 open sat

教育导报3月15日讯OpenAI周二发布了多模态大语言模型GPT-4。该模型是OpenAI 在调用和响应深度学习模型生成方面的最新里程碑,并在重要考试中超越了大多数人类考生。

根据OpenAI 的描述,该模型展示了“跨各种专业和学术领域的人类水平的表现”。 GPT-4 在模拟律师考试中得分位于前10%,而其前身GPT-3.5(ChatGPT 的基础)得分在后10% 左右。

GPT-4 在其他各种考试中也表现出色,例如SAT 数学考试,它在满分800 分中获得了700 分。然而,它并不具备所有科目的能力,例如AP 英语语言和作文仅获得2 分。

需要考虑的一件事是:OpenAI 的GPT 系列本质上是一个反流引擎系列,它采用训练过的材料并重新组装它来解决用户查询。有时是对的,有时是错的。它可以回忆起考试细节——,而人类用户可能很难清楚地记住所有细节,并且它的响应可能更像是对人类必须参加的各种考试的评论。

OpenAI CEO Sam Altman在谈到GPT-4时承认:“它仍然有缺陷,它仍然有限,第一次使用它时可能会让人印象深刻,但当人们花更多时间使用它时,可能就无法做到这一点(即多轮对话询问后获得的答复可能有缺陷)。”

GPT-4 是一个大型多模态模型,支持通过文本和图像输入查询并以文本形式返回答案。开发人员目前可以通过等候名单上的GPT-4 API 进行访问,而个人用户则可以通过ChatGPT Plus 进行订阅。基于图像的输入目前仍在进行中。

尽管增加了图像输入机制,但OpenAI 并未披露或提供有关其模型生产的信息。这家备受瞩目的公司选择不透露有关其规模、训练方式以及流程中使用哪些数据的详细信息。

“考虑到GPT-4 等大型模型的竞争格局和安全影响,本报告不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息,”公司在其技术文件中表示。

在YouTube 的直播中,OpenAI 总裁兼联合创始人Greg Brockman 演示了GPT-4 和GPT-3.5 之间的区别。

GPT-3.5 根本不尝试做出回应。 GPT 4 回归“GPT-4 产生了突破性的、宏伟的成果,极大地激发了广义人工智能目标。”当布罗克曼告诉模型,当包含“AI”的句子不算数时,GPT-4 在另一个不含“AI”的句子中修改了其响应。

然后,他继续让GPT-4 为Discord 机器人生成Python 代码。更令人印象深刻的是,他拍了一张笑话网站的手绘模型的照片,将图像发送到Discord,相关的GPT-4 模型用HTML 和JavaScript 代码进行响应,实现了模型网站。

最后,Brockman 设置了GPT-4 来分析16 页的美国税法,以返回Alice 和Bob 这对具有特定财务状况的夫妇的标准扣除额。 OpenAI 的模型给出了正确答案并解释了所涉及的计算。

除了更好的推理(从测试分数的提高中可以明显看出),GPT-4 还改善了协作(按照指示进行迭代以改进之前的输出),并且能够更好地处理大量文本(分析或输出大约25,000 字的中篇小说)接受基于图像的输入(用于对象识别,尽管此功能尚未公开)。

更重要的是,根据OpenAI 的说法,GPT-4 应该比早期版本更不容易出错。

OpenAI 表示:“我们花了六个月的时间,利用从对抗性测试程序和ChatGPT 中吸取的经验教训,迭代调整GPT-4,在现实性、可控性和拒绝安全边界方面取得了有史以来最好的结果(尽管远非完美)。”

从微软Bing 问答功能首次亮相以来,人们可能已经熟悉了这种“远非完美”的安全级别,该功能使用GPT-4 作为其Prometheus 模型的基础。

OpenAI 承认GPT-4 与其早期版本一样,“扭曲事实并产生推理错误”,但该公司表示,新模型降低了错误程度。

相对于之前的模型,GPT-4 显着减少了失真

该公司解释说:“虽然仍然是一个真正的问题,但与以前的模型相比,GPT-4 的事实扭曲性能较少(每次迭代都得到了改进)。” “在我们内部的对抗现实主义评估中,GPT-4 的得分比我们最新的GPT-3.5 高出40%。”

GPT-4 的定价为每1,000 个提示代币0.03 美元,每1,000 个完成代币0.06 美元,其中一个代币大约为四个字符。默认速率限制为每分钟40,000 个令牌和每分钟200 个请求。

此外,OpenAI 还开源了Evals,这是一个用于评估和校对机器学习模型(包括其自己的模型)的程序。

尽管人们对人工智能风险的担忧挥之不去,但企业仍在争先恐后地将人工智能模型推向市场。在GPT-4 到来的同一天,由前OpenAI 员工创立的初创公司Anthropic 推出了自己的基于聊天的助手Claude,用于处理和生成文本摘要、搜索、问答、编程等。

Google 担心在营销相关模型方面落后,因此推出了一个名为PaLM 的API,用于与各种大型语言模型交互,以及一个名为MakerSuite 的原型环境。

几周前,Facebook 推出了LLaMA 大规模语言模型,斯坦福大学的研究人员现已将其改造为Alpaca 模型,未来可能会出现更广泛的竞争。

OpenAI 表示:“还有很多工作要做,我们期待通过社区的集体努力来改进这个模型,在该模型的基础上进行构建、探索和贡献。”

https://openai.com/research/gpt-4

https://www.theregister.com/2023/03/14/openai_gpt4_ai/

其他阅读

2023年两会闭幕:教育、就业、婚育18条建议

学生开始使用ChatGPT写论文?但老师们并不担心作弊现象激增

ChatGPT 将如何改变大学和高中的学习?

猜你喜欢

SQL Error: select * from ***_ecms_news where titlepic<>'' order by rand() desc limit 6