托福口语机器评分11大扣分点!——Speech Rater(托福口语评分系统)

新闻资讯2024-06-08 15:03小乐

托福口语机器评分11大扣分点!——Speech Rater(托福口语评分系统)

十年前的2009年,No Teacher是中国大陆第一个爆料ETS已经开始使用e-Rater(论文自动评分系统)的消息的人。

去年,无老师在全球首次发布托福考试作文模板。

日前,吴老师独家爆料,ETS即将改革现行托福考试。很多人都担心,所以吴老师专门发文章告诉大家,大规模的托福改革通常会提前两年通知。需要两年后才能正式实施,也就是说最早要到2021年才能正式实施。同时,吴老师也掌握了2013年ETS内测的试题。吴老师会提前找时间爆料。

托福教学和研究首先要研究标准。这些托福考试标准都隐藏在ETS的官方研究论文中。今天我们就从ETS官方研究论文来深度解读ETS的语音评分器!这些论文非常有价值。吴老师10年前对e-Rater试卷的研究成果对于今天的托福考生来说仍然具有巨大的指导意义,并将永垂不朽!

十年前的2009年,吴老师系统地总结了e-Rater的运行机制。今天,我们就来权威解读最新托福口语人工智能自动评分系统Speech Rater!

演讲评分器于2018年首届中国托福年会上首次推出,本次年会没有邀请任何老师坐在第一排。以下是当时的第一手照片。

这种无老师的解释是有目的的。就是直接帮你。它高度浓缩了ETS官方论文,取其精华,扔掉所有讨论部分,直接打出Speech Rater的核心点,直接发给你。无花果面前,听老师讲,托福口语考满分,就这么简单!

我们干脆忽略这份报告的前22页,因为前22页都是对实验细节的分析,对考生的指导有限。我们直接从最后的核心实验开始,也就是从第23页的核心内容开始。

在第23页的这个表格中,总共列出了20个核心评分标准,这些标准将影响最终的托福口语分数。

在这20个项目中,ETS将其分为两大类。第一类是Delivery——表达式;第二类是语言使用——语言使用。我想如果你看到这两类的名字,你会想直接撞墙,而且你根本不知道他们在说什么。没关系,继续读下去你就会明白的。

第一类Delivery——表达分为4个级别

1 流利度—— 流利度

2 发音—— 发音

3 韵律—— 韵律

4 节奏—— 节奏

第二大类是Language use——语言使用,分为两个级别

1 语法—— 语法

2 词汇—— 词汇

其实当你看到这个的时候,你就已经有一种感觉了。与刚才的两个词表达和语言使用相比,非常明显的是,流畅性、发音、韵律、韵律、语法和词汇,让大家很容易明白ETS想要什么。

随着吴老师讲解的深入,显然高潮即将来临!

在这份官方研究报告中,ETS非常关键地列出了每个细节的得分点以及与最终总分的相关系数。也就是说,这意味着,对于每一个得分点,到底会在多大程度上影响最终的得分。

右边整行系数相加,它们的和为1。这意味着这张表列出了所有最终影响托福口语分数的影响因素,并且还给出了每个因素。影响因素的权重。右侧给出的权重越高,对最终得分的影响就越大。赋予的权重越低,相关性越低,对最终得分的影响也越小。

最后,在这里,吴老师将影响系数在0.05以上的所有影响因素都用黄色背景标注出来。影响系数在0.05以上的占整个表20项中的11项,其中第一项“平均沉默持续时间”影响最大。它是所有20个影响因素中唯一的一个。超过0.1的影响因素达到了0.119,这意味着在我们托福口语考试中,不恰当的停顿实际上是最损害我们分数的因素,而且停顿时间越长、停顿次数越多,分数就会越低。让我们的分数尽可能低!

第二个最有影响力的因素是具有最高单词CVA 相似度得分的得分点。影响因素指数达到0.99。吴老师把这段英文翻译成大家都能看懂的中文。这一段的意思是,你使用的单词相似度越高,反之,你的单词数量就越多。规模越大,替换越多,得分越高;相反,如果你总是使用相同的单词而不进行商定的替换,你得到的分数就会越低。

第三大影响因素是每秒单词数的语速,影响指数为0.97。这个影响因素就是你的“语速”。也就是说,一般情况下,你说话的速度越高,你得到的分数就越高,你说话的速度越慢,你最终得到的分数就越低。但请注意,这并不意味着你必须像机关枪一样不停地说,而是句子内部和句子之间应该有正常的停顿。

以上三个核心影响因素的总影响指数达到了0.315,是对我们托福口语成绩影响最大的三个因素。

托福口语这次引入了自动评分系统。事实上,ETS已经谋划已久。这一点从ETS的官方报告中可以看出。事实上,目前使用的引擎是5.0版本的引擎,而这个引擎的第一个版本,其实是在2008年开发的。光看这个时间就让我们对ETS肃然起敬。这是一个只有谷歌这样的公司才应该投资的项目,但小型的ETS却这么早就开始投资和沉淀。

从官方的研究报告来看,第一代版本的Speech Rater非常原始,使用的数据库也很小。总共只有十几个样本,而且这些样本中的数据并没有被机器自动分析和读取。但需要手动输入,而且在最早的1.0版本中,计算机只能判断(发音、流利度、词汇、语法)这四个方面,但截至目前的5.0版本,仅将大类分为6类。毫无疑问,分析的维度也得到了很大的提升。当然,在ETS 眼中,人类考官做得更多。人工检查员必须执行以下操作:

交付:发音、节奏、语调、语速、停顿结构、流畅性

语言使用:词汇和语法

主题发展:内容和连贯性

3个主要领域和10个小领域分别考虑并评分。

但在最新的5.0引擎中,正如吴老师之前展示的那样,最新版本的引擎已经非常接近真人的评分了。在ET官方发布的信息中,真人评分与机器评分的相关系数已经达到了0.81。换句话说,ETS是在告诉大家:我们的系统做得很好,我们敢给你们看。

接下来,我们来看看另外8个重要的影响因素。

显然,这里排名第四的影响因素是在本机数据上训练模型的所有单词的总声学模型得分。读完这句生涩的语言,说实话,吴老师有点想吐。这个词确实不太好解释。总而言之,这实际上涉及到ETS评分过程中的一个具体过程。也就是说,Speech Rater在评分的时候,其实有一个关键的步骤,就是让机器识别考生自己说的英语是否地道。在英语中,这主要是根据发音和节奏来判断的。也就是说,你的英语口语越接近地道发音,你的分数就越高,反之亦然。这个影响系数达到了0.081,所以就有了下面的第二个影响因素,在非原生数据上训练的模型的总声学模型得分。

以上4项均为影响系数大于0.07的影响因素。接下来7项的影响系数均低于0.07且高于0.05。这意味着对最终分数的影响对之前的分数没有影响。 4项影响这么大,但也比较重要。

其中高于0.06的影响因素有4个,分别是:

块长度的平均值(以秒为单位)—— 块的平均长度

No.repetitions—— 重复程度

语法相似度得分最高的得分点——语法相似度

总数不同的词汇类型——词汇的多样性

块的平均长度(以秒为单位)—— 块的平均长度,属于大类Fluency—— Fluency:影响因子0.066,

这意味着如果句子都是三个词,类似于像我喜欢你这样的简单句子,那么分数肯定会很低。但如果能用一些固定的搭配或者一些装饰性的元素,一方面句子也不会脱节。口语不会像书面语那么复杂,而且句子结构的内容也可以更加丰富和充实,所以你的分数会提高。当然,这篇文章的解读有很多层次,吴老师这里就不一一赘述了。

No.repetitions——有一定程度的重复,属于一般类别Fluency——:影响系数为0.061。

说实话,把重复程度放在流畅程度上有点奇怪。既然是放在流利的范畴,那么这里大概表达的是你会不会结巴,也就是你会不断地重复同一句话。

语法相似度得分最高的得分点是——语法相似度,属于大类Grammar——语法,影响系数为0.062。

这篇文章的方向非常明显。它要求考生增加句型的丰富性和多样性,而不是使用相同的句型。例如,整篇文章不应该都是我认为或我喜欢的,或者都是There be句型。

总数不同词汇类型——个词汇多样性,属于大类——个词汇,影响系数0.061。这篇文章的方向也很明显,就是要求考生增加词语的多样性。方向性与之前单词CVA 相似度得分最高的得分点相似。只是从不同的角度来描述而已。

影响系数在0.05~0.06之间的有3项:

No.disfluency——不流畅的数量,

No.silences per second——每秒沉默数

power——的SD 吴老师不太清楚这个词的理解。论文中并未详细解释“SD”一词。看来通过上下文表达的意思就是句子的长度。这里的“SD of power”可能意味着“重音”,或者是音量的大小。

No.disfluency—— 不流畅的数量,属于一般类别Fluency——,影响系数为0.056

显然流畅性是ETS非常关心的事情。

No.silences per second—— 每秒的沉默数,属于一般类别Fluency——,影响系数为0.056

事实上,这篇文章与第1条“平均沉默市场”密切相关。它还告诉我们,除了正常的节奏外,句子之间不应该有太长的停顿。这意味着您的语言不连贯并且您不熟悉该语言。

以上11项是整个托福口语成绩中最关键的影响因素。根据Speech Rater 的说法,它们最终会影响你分数的核心。影响因素为以上11项。

但这还不是故事的全部!

托福口语自动评分系统Speech Rater的固有问题就是上梁不直,下梁歪!

首先我们看一下ETS官方公布的托福口语自动评分系统与人工评分的相关性,为0.81。

说实话,如果我们简单地把这样一个系数放在我们面前,我们是没有任何感觉的。这个系数是高还是低,我们没有办法比较。但其实我们有一个非常重要的参考系,那就是e-Rater,托福论文自动评分系统。

其实考过托福的人都知道一件事,那就是托福口语和作文作为托福考试的主观题,其实是可以申请复议的。也就是如果你认为考官的分数有问题,就判断真实分数是否太高。或者太低,则可以申请复议。

在您申请复议后,ETS 将重新安排一位高级考官对您的口语或作文分数进行评分。当然,他不会知道你原来的分数,会独立给你打分。如果审核后分数波动较大,则说明其分数一致性较低。如果审核后分数波动较小,说明他们的分数一致性比较高。

从来没有老师统计过复习的成功率。托福作文复习成功率是提高分数10%,降低分数10%,保持不变80%。托福口语复习的成功率是,分数提高20%,分数降低20%,无变化60%。

这意味着托福口语及其本身评分的稳定性实际上不如托福作文评分那么稳定。不同的考官或者自己的考官可能会得到与新手考官不同的分数。托福作文成绩的稳定性比较好。即使经过审核,大多数情况下,审核后得到的分数实际上与原始分数是一致的。

这意味着整个托福口语自动评分系统Speech Rater,他们评分的基础,也就是ETS口语评分标准的稳定性,相比托福作文写作来说,本身就不好。当然,这并不是说托福考试,这是一个非常糟糕的评分系统。事实上,从世界两大语言考试托福和雅思来看,托福口语和作文的整体得分稳定性实际上比雅思口语和作文要好得多。的。

雅思口语作文的原因是分数的稳定性不高,人为因素影响很大。评分的高低与考官自身素质密切相关。中国大陆的雅思考场组织都比较完善,考官素质也比较高,也比较稳定。但东南亚很多考官和海外很多考试中心组织得不是很好,考官水平也参差不齐。因此,很多中国考生去海外参加雅思考试,就是为了钻这个空子,让其他国家的考官给出更高的分数。甚至中国境内的雅思考官在私下讨论时也经常对同一案件给出不同的分数。也就是说,在组织相对完善的中国,雅思口语、作文成绩的稳定性实际上不如托福口语、作文成绩稳定。

所以,这里我们说托福的稳定性不好,因为它相对于托福作文成绩的稳定性来说还不够好,但是它比雅思口语和作文成绩的稳定性要高。接下来我们回到托福口语分数的问题。

我们这里已经说得很清楚了,托福口语成绩的稳定性本质上不如托福作文成绩的稳定性。那么我们要知道,使用e-Rater自动评分托福论文后,仍然保留了手动评分。即机器电子评分器和人工评分同时进行。如果两个分数相同或相似,则给出分数。如果机器和人工评分不一致或者差距比较大,评分就会交给更有经验的评分员。

也就是说,在评分系统较为稳定的托福作文中,人工评分实际上涉及到每一个细节,最终的决策权也掌握在人类手中。

那么托福口语本身的稳定性就没有托福作文评分那么稳定。这意味着托福口语自动评分系统实际上带来了更大的不确定性。如果直接使用托福口语自动评分系统Speech Rater进行评分,人工评分的不稳定加上机器评分的不稳定,偏差可能会很大。复议成功率可能提高40%,降低40%,维持20%不变。

每位托福考生缴纳考试费1900元。大家的委托很重要,每一个分数的公平性也很重要。如果出现这么大的偏差,ETS评分的公平性就没有了。因此,在实际使用中,托福口语自动评分系统Speech Rater在10年内将无法掌控主要决策权。要知道托福作文自动评分系统,在2009年吴老师爆料之后,要到10年后才能做出决定。如今,仍然需要人类参与评分。那么托福口语自动评分系统,在未来10年里,实际上只是人工评分的陪衬或者背景,不能算是主角。

而我们在考试场景中必须要考虑一个非常重要的问题。托福作文评分更容易做到公平,因为考官看到的是一篇由一个个字母组成的作文,不会有其他影响因素。然而,影响托福口语的因素有很多。比如托福考场楼上的装修会造成非常大的噪音。例如,如果有人在托福考场大声唱歌,也会引起非常大的噪音。例如,托福考生如果不小心把麦克风放在远离嘴边的地方,声音捕捉就会很差。这就是为什么在参加考试之前必须进行托福考试的原因。如果您对此不满意,则无法参加测试。但即使在海选之后,许多托福考生也会不经意地降低音量。

正如吴老师所说,装修的噪音、考场的噪音、麦克风不小心放错了位置,可能都是人类考官可以接受的。但对于托福口语自动评分系统这个电脑系统来说,大量的噪音和降低的声音其实是他们无法接受的。它将使整个系统完全瘫痪。因此,从实际应用的角度来看,托福口语自动评分系统Speech Rater将会受到很大的挑战。

因此,这套托福口语自动评分系统Speech Rater对于展示ETS本身的技术实力来说是非常有价值的,但从实用角度来看,每位考生1900元的考试费用是必要的。老实说,与手动评分的相关性为0.81。 1,000 名候选人是可能的。大约有100 名候选人会遇到问题。哪个候选人愿意自己出问题?而且,中国总共有6000个托福考试席位,每次都有600名托福考生可能出现问题。您认为教育部考试中心会接受托福热线被炸的事实吗?

因此,未来10年内,托福口语自动评分系统Speech Rater很可能会在短时间内进入评分系统。然而,10年内,托福口语成绩的最终决定权实际上仍然是由人工决定的,而不是由这个系统决定的。

这套托福口语自动评分系统已引入国内。你享受其中是可以的,但过于认真对待你的分数就是你的错了。

备考托福最大秘诀:掌握精髓,更快提高成绩!

你需要的是无人老师托福!

封闭严格的管理,

主课、课堂练习、周末模拟考试的巩固与提高

直至晚上21:00,我们将亲自解答您的问题,快速提高您的托福成绩!

无老师的封闭托福课程将帮助您在考试前成为尖子生!

一起

快来积分吧

立即扫码注册

猜你喜欢