GRE作文用AI打分,20周年了:AI给中国考生的分数,远超人类打分?gre作文 知乎

新闻资讯2024-06-11 11:13小乐

GRE作文用AI打分,20周年了:AI给中国考生的分数,远超人类打分?gre作文 知乎

敖飞寺的栗子

量子比特报告|公众号QbitAI

GRE 论文是使用AI 进行评分的。

这原本不是新闻。

然而,由于美国媒体VICE发布的一项调查,此事成为热议的焦点。

VICE 调查了美国50 个州,发现至少21 个州(包括加州)的教育系统已经使用AI 作为标准化考试中作文评分的小学/中学主要工具。

蓝色=AI评分,浅蓝色=试点,红色=无AI评分,粉色=取决于学区,灰色=无响应

在这21个州中,只有3个州表示人类也会参与论文评分;其余18个州只会随机选择5%-20%的论文,交给人类审核AI给出的分数。

问题在于,标准化考试常常被用作选拔和决定人类未来的依据。如果AI得分,那么命运就掌握在AI手中。

这时候,人们不禁想起了GRE这位20年前就开始用AI评判论文的大四学生。

许多研究表明,许多基于人工智能的论文评审机制,包括GRE评分机电子评分器,都存在明显的缺陷。

然而这些年来,AI不但没有被各种作文考试抛弃,反而越来越受欢迎。

于是,《黑客新闻》网友们掀起了热议,不到一天的时间,人气就达到了330+。

GRE:机器比人更喜欢中国考生。早在1999 年,主办GRE 考试的教育考试服务中心(ETS) 就开始使用电子评分器对论文进行评分。

根据官方信息,该自然语言处理(NLP)模型有以下8个评分标准:

· 基于词汇量的内容分析

· 词汇复杂性/措辞

· 语法错误的比例

· 使用错误的比例

· 力学错误比例

指拼写错误、大小写错误、标点错误等技术问题。

· 风格点评比例

例如,某些短语太多、太短的句子太多、太长的句子太多等等。

· 组织与发展分数

· 奖励惯用语的功能

当然,这个AI不仅仅服务于GRE。至少,托福和GRE一样,也是ETS出品的考试。

对于这个算法的缺陷,ETS官方做了大量的研究,并且从不回避研究结果。

在1999年、2004年、2007年、2008年、2012年和2018年写的论文中可以发现,人工智能给中国大陆考生的分数普遍高于人类的分数。

相比之下,在非裔美国人中,人工智能的得分往往低于人类。母语为阿拉伯语、西班牙语和印地语的候选人也存在类似情况。尽管团队一直在改进算法,但这个问题并没有消除。

ETS 的一位高级研究员表示:

如果我们希望算法对某个国家的某个群体友好,那么很可能会伤害其他群体。

更进一步,我们可以观察AI在单项上的评分情况。

你会发现,在所有考生中,e-rater给中国大陆考生的语法和力学成绩普遍偏低;

在文章长度和复杂词的选择方面,中国大陆考生的人工智能得分高于平均水平。最终,人工智能给大陆考生的总体评分高于人类。 GRE作文评分为6分(满分10分),AI评分平均比人类高1.3分。

相比之下,在非裔美国人中,AI 的得分平均比人类低0.81 分。而且,这些只是平均数据,对于许多候选人来说,差异甚至比这还要巨大。

无论是1.3还是0.81,在6分制考试中都不是一个小数字,可能会严重影响考生的成绩。

不仅如此,麻省理工学院的朋友开发了一种名为BABEL 的算法,可以将复杂的单词和句子拼贴在一起。生成的文章没有任何实际意义,但被GRE的在线评分工具ScoreItNow打出了4分!良好的结果。

但ETS 表示,人工智能并不单独评判论文。每一篇由人工智能评分的作文都会同时由人类评分。然后,将人类和机器分数的差异交给第二个人来判断,得到最终分数。

因此,ETS 相信考生不会受到人工智能缺陷的不利影响。

然而,相比之下,传统方法是由两个人同时对一篇文章进行评分;当AI取代其中一个人进行评分时,就相当于那个人的责任变成了审稿。

成本可能下降了很多,但很难说会对结果产生多大影响。至少评分机制和AI介入之前是不一样的。

此外,AI的存在不仅影响评分,还直接影响考生的应试策略。近年来,取悦AI的策略越来越多:

摘自竹林追梦论坛@人中人

幸运的是,GRE 是由人类和人工智能共同评分的。

不过,有很多考试是直接交给AI来评论文的:

不仅仅是GRE 算法有问题。例如,VICE 的一项调查发现,犹他州多年来一直使用人工智能作为其主要论文评分工具。

一位州官员解释了原因:

除了耗时之外,手动评分对于国家来说也是一笔巨大的开支。

那么,利用AI进行写作评分能否做到公平公正,同时降低成本呢?

美国研究院(AIR) 是一个非营利组织,也是犹他州的主要测试提供商。

关于给AI打分什么样的问题,AIR给出了一个模板:

该问题要求考生观看海牛的图像并写出观察结果(A) 和推论(B)。

AIR每年都会产生一份报告来评估一些新主题的公平性。

评估的重点之一是女性和少数族裔学生在特定测试问题上的表现是否比男性/白人学生差。该指标称为“差异项函数(DIF)”。

报告显示,2017-2018学年,女生和少数族裔学生的三至八年级写作试题中有348道被判定为轻微DIF;相比之下,男孩和白人学生的差异较小。有40 个问题。

另外,有3道题被判定为女学生和少数民族学生存在严重差异。这些问题将由专门委员会进行审查。

可能造成DIF的原因有很多,其中算法偏差是大家最关心的因素。

一位来自犹他州的家长(@dahart) 占据了黑客新闻讨论区的顶层。

他不喜欢听那些官员谈论“成本”。他认为教育本质上是耗时耗力的,不可能又快又便宜。

他说,孩子们的作文是由机器评分的,如果全家人都对AI给出的分数不满意,配偶和孩子都会哭。

还有一件事当然,人工智能论文写作不仅限于美国。

去年,《南华早报》表示,中国有6万所学校依靠AI批作业,分布在全国各地。

其中,学生提交的英语作业也是由机器评分的。构图校正系统来自Kuju Correction Network。要求理解文本的总体逻辑和意义,对作文的整体质量做出合理的人性判断,并对写作风格、结构、主题等提出建议。

据说,AI 和人类老师对作文的评分在92% 的情况下是一致的。

但从评论来看,学生们和他们在美国的朋友一样,也受到了很多委屈:

这样的情感仍然没有界限。

参考:

https://www.vice.com/en_us/article/pa7dj9/flawed-algorithms-are-grading-millions-of-students-essays

https://www.washingtonpost.com/news/answer-sheet/wp/2016/05/05/should-you-trust-a-computer-to-grade-your-childs-writing-on-common-core-tests/

ETS发表的多篇NLP论文:

https://www.ets.org/research/topics/as_nlp/writing_quality/

- 超过-

诚意招聘

量子位正在招聘编辑/记者到北京中关村工作。我们期待有才华、有热情的学子加入我们!相关详情请在量子比特公众号(QbitAI)对话界面回复“招聘”。

量子比特QbitAI·今日头条签约作者

'' 追踪AI技术和产品新进展

猜你喜欢