(从左至右)崔磊、韦福如、周明、杨南。微软亚洲研究院自然语言计算研究组供图
科学现场
人工智能:读书“破万卷”,难答“小儿科”
阅读来自维基百科的536篇文章,回答10万个基于文章内容的问题,除了题量大一点,这场比赛挺像大学英语六级考试的阅读理解测试。
但你不可能听到考场里奋笔疾书的“唰唰”声,因为“参赛者”只是一段代码。输入文章和问题后,计算机的中央处理器(CPU)和图形处理器(GPU)开始高速计算,最后交出答卷,由出题者批阅。
对来自世界各国的研究者来说,这是一场没有尽头的竞赛——任何人可以在任意时间加入,排行榜实时更新;即使是第一名,不保持“学习”和“更新”,随时有可能被新加入者超越。它可能发生在你吃饭和睡觉的时候,而“对手”不过是“啪啪啪”地敲击了一串代码。
这场竞赛全称SQuAD(Stanford Question Answering Dataset)文本理解挑战赛,由斯坦福大学在2016年9月发起,是业内公认的机器阅读理解标准水平测试,也是这个领域的顶级赛事。
在2018年1月3日以前,人类始终保持着领先的优势——从来没有任何一个团队能够设计出一种答题正确率超过人类的算法。这一天,微软亚洲研究院自然语言计算组提交的新模型获得了82.650的精确匹配分数,超过了人类得分82.304。仅过了两天,阿里巴巴iDST-NLP团队也拿到了82.440的精确匹配分数。
微软亚洲研究院院长洪小文告诉中国青年报·中青在线记者:“这对微软和自然语言处理(NLP)研究领域来说,都是一个重要的里程碑。计算机文本理解能力首次超越人类,预示着该领域的研究将会有更大突破。”
在计算机看来,世间万物都是一串数字
微软亚洲研究院副院长、自然语言计算组负责人周明博士坐在计算机前,紧张地等待测试结果。经过1个多月对模型和算法的更新,他们提交了最新代码。
这支团队在SQuAD挑战赛初期,一度以稳定的成绩长期位居排行榜榜首,但周明知道,这场竞赛的排名瞬息万变。2017年最后两个月里,科大讯飞与哈工大联合实验室、腾讯DPDAC NLP团队先后超过了他们。
新选手参赛大约两三分钟后,系统就完成了约50篇数百词的文章阅读和约1万个问题的回答。即使母语是英语的成年人,这个时间也才勉强读完5篇文章。
“对人类来说,读完一篇文章就会在脑海中形成一定的印象,比如这篇文章讲的什么人,发生了什么故事。人们能够轻而易举地归纳出文章里的重点内容,但对计算机来说不是这样。”周明告诉中国青年报·中青在线记者。
在SQuAD测试中,计算机需要阅读一段材料,然后回答诸如人名、地理位置等问题。不同于类似测试,SQuAD测试的回答可能是一段短语,而非某个单词或单个内容。它可能遭遇同义词替换、句子结构变换等情况,甚至需要综合多个句子进行逻辑推理。
为了解决这个问题,研究组模拟人类做阅读理解过程的方式,他们将整个过程分成了四步。拿到测试题后,计算机首先会学习文本和问题,就像我们做阅读题时,首先会通读文章,然后审题,获得一个整体印象。