经过数千小时的工作,麻省理工学院的研究人员发布了第一个由非母语人士撰写的完全注释英语句子的主要数据库。领导这个项目的研究人员已经证明,用英语写作的非母语人士的语法怪癖可能是语言洞察力的来源。但是他们希望他们的数据集也可以导致应用程序改善计算机对非英语母语人士的口语或书面语言的处理。
“英语是互联网上使用最多的语言,有超过10亿人使用,”负责新项目的电子工程和计算机科学研究生Yevgeni Berzak说。“大多数在世界上讲英语或制作英文文本的人都是非母语人士。当我们科学地学习英语或者我们为英语进行自然语言处理时,这种特性往往被忽视。“
大多数自然语言处理系统使智能手机和其他计算机应用程序能够处理用普通语言表达的请求,它们基于机器学习,其中计算机系统在大量训练数据集中寻找模式。“如果你想要处理非经典学习者语言,就你可以使用的培训材料而言,你只能训练标准英语,”Berzak解释说。
另一方面,受过非标准英语培训的系统可以更好地处理非母语英语人士的特质,例如倾向于删除或添加介词,替换他人的特定时态,或滥用特定的辅助动词。实际上,研究人员希望他们的工作能够导致语法修正软件针对其他语言的母语人士。
研究人员的数据集包括5,124个句子,这些句子来自英语作为第二语言(ESL)的学生撰写的考试文章。这些句子的分布大致相等,来自10种语言的母语人士,这些语言是世界人口约40%的主要语言。
数据集中的每个句子都包含至少一个语法错误。句子的原始来源是剑桥大学公开的集合,其中包括错误的注释,但没有其他语法或句法信息。
为了提供额外的信息,Berzak从语言学研究生Carolyn Spadine领导的电气工程和计算机科学(EECS),语言学和机械工程系招聘了一组麻省理工学院的本科生和研究生。
在如何注释语法正确和错误缠绕的句子的八周培训后,学生们开始直接处理数据。有三个级别的注释。第一部分涉及基本的词性 - 一个词是一个名词,一个动词,一个介词等等。接下来是对词性的更详细描述 - 复数与单数名词,动词时态,比较和最高级形容词等。
接下来,注释者使用一种称为通用依赖形式主义的相对较新的注释方案绘制了句子单词之间的句法关系。句法关系包括哪些名词是动词的对象,动词是其他动词的辅助词,形容词修饰哪些名词,等等。
注释器为每个句子的校正和未校正版本创建了句法图表。这需要一些先前的概念性工作,因为语法错误会使单词的句法角色难以解释。
Berzak和Spadine为他们的注释方案编写了一份20页的指南,其中大部分涉及处理错误缠绕的句子。处理此类句子的一致性对于任何设想的数据集应用都是必不可少的:如果在不同的训练示例中对错误进行了不同的描述,则机器学习系统无法学会识别错误。
然而,研究人员的方法提供了很好的证据,证明注释者可以一致地绘制不符合语法的句子。对于每个句子,一个评估者完全注释它; 另一个人审查了注释并标记了任何不同意见的领域; 第三个人就这些分歧作出了裁决。
关于如何处理不合语法的句子存在一些分歧 - 但是对于如何处理语法句也存在一些分歧。一般而言,两种类型的句子的一致程度相当。
研究人员的数据集现在是监督通用依赖性(UD)标准的组织提供的59个数据集之一。Berzak还为数据集创建了一个在线界面,以便研究人员可以查找特定类型的错误,由特定语言的母语人士生成的句子等。
“我发现ESL [数据集]最有趣的是,使用UD开辟了很多可能性,可以系统地将ESL数据不仅与原生英语进行比较,而且还可以与使用UD注释语料库的其他语言进行比较,”Joakim说。 Nivre,瑞典乌普萨拉大学计算语言学教授,也是UD标准的开发者之一。“希望其他ESL研究人员能够效仿他们的例子,这将使得能够在几个方面进行进一步的比较,ESL到ESL,ESL到本地等等。”
“对不正确和纠正的句子进行注释的决定使这些材料非常有价值,”Nivre补充道。“例如,我可以看到,如何将其作为机器翻译任务,系统学习从ESL翻译成英语。当前的语料库本质上将提供训练这样一个系统所需的并行数据,双方语法注释的可用性开辟了更多样化的技术方法。“
这项工作部分由国家科学基金会资助,由麻省理工学院的大脑,头脑和机器中心主持
免责声明:本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。
资源可以为非英语母语人士提供语言见解和实际应用
新算法可以使家用机器人更好地识别杂乱环境中的物体
计算机系统通过视觉图灵测试
智能电视也能玩社交下一个竞争风口要来了
开启了全球超大型油轮智能航运新的一页
为喀斯特贵州煤炭开采的自动化和智能化破题
小型无人机飞行通常不安全
全球领先的汽车制造商中国大疆今日宣布改进地理围栏技术
从一次脑部扫描到医学人工智能的更多信息
初步报告审查麻省理工学院施瓦茨曼计算学院的选项
资源可以为非英语母语人士提供语言见解和实际应用
新算法可以使家用机器人更好地识别杂乱环境中的物体
计算机系统通过视觉图灵测试
Nicholas Roy设计机器人以应对现实世界的挑战
智能电视也能玩社交下一个竞争风口要来了
开启了全球超大型油轮智能航运新的一页
为喀斯特贵州煤炭开采的自动化和智能化破题
安防机器人这种高度智能化的技术给安防市场带来了新的商机
机器人的应用让我们对梅雨期发生的洪灾讯灾有了更好的应对
最大的挑战还在于让机器学习网络防御在现实复杂网络中奏效
联邦航空局强制要求无人机上的外部登记号码
2019-06-23
由于NAPO为苏-34提供了保证S-70首次亮相
2019-06-21
空中客车直升机公司赛峰集团参加VTOL技术公司
2019-06-21
维斯塔斯引进Sulzer Schmid和WKA Blade Service
2019-06-19
I2C使用自动化和基于UX的设计使情境意识更加经济实惠
2019-06-19
Carnegie Mellon正在从Oblivion中保存旧软件
2019-06-17
Taylor诉FAA对商业无人机操作员的意义
FAA关于机场UAS检测系统的声明
VR音乐会平台MelodyVR亏损1470万美元
Optelos与Consortiq合作推出无人机舰队管理平台
想象力电视合作伙伴与无人机救援救援运动
84%的雇主会考虑缺乏必要经验的候选人如果您的资格不合格这里就是如何找到工作的
麦当劳与汉堡王有什么区别
Penny Stocks将于2019年4月使用技术分析购买