科学现场：人工智能读书“破万卷” 难答“小儿科”_教育频道

科学现场：人工智能读书“破万卷”难答“小儿科”

　　（从左至右）崔磊、韦福如、周明、杨南。微软亚洲研究院自然语言计算研究组供图

　　科学现场

　　人工智能：读书“破万卷”，难答“小儿科”

　　阅读来自维基百科的536篇文章，回答10万个基于文章内容的问题，除了题量大一点，这场比赛挺像大学英语六级考试的阅读理解测试。

　　但你不可能听到考场里奋笔疾书的“唰唰”声，因为“参赛者”只是一段代码。输入文章和问题后，计算机的中央处理器(CPU)和图形处理器(GPU)开始高速计算，最后交出答卷，由出题者批阅。

　　对来自世界各国的研究者来说，这是一场没有尽头的竞赛——任何人可以在任意时间加入，排行榜实时更新；即使是第一名，不保持“学习”和“更新”，随时有可能被新加入者超越。它可能发生在你吃饭和睡觉的时候，而“对手”不过是“啪啪啪”地敲击了一串代码。

　　这场竞赛全称SQuAD(Stanford Question Answering Dataset)文本理解挑战赛，由斯坦福大学在2016年9月发起，是业内公认的机器阅读理解标准水平测试，也是这个领域的顶级赛事。

　　在2018年1月3日以前，人类始终保持着领先的优势——从来没有任何一个团队能够设计出一种答题正确率超过人类的算法。这一天，微软亚洲研究院自然语言计算组提交的新模型获得了82.650的精确匹配分数，超过了人类得分82.304。仅过了两天，阿里巴巴iDST－NLP团队也拿到了82.440的精确匹配分数。

　　微软亚洲研究院院长洪小文告诉中国青年报·中青在线记者：“这对微软和自然语言处理(NLP)研究领域来说，都是一个重要的里程碑。计算机文本理解能力首次超越人类，预示着该领域的研究将会有更大突破。”

　　在计算机看来，世间万物都是一串数字

　　微软亚洲研究院副院长、自然语言计算组负责人周明博士坐在计算机前，紧张地等待测试结果。经过1个多月对模型和算法的更新，他们提交了最新代码。

　　这支团队在SQuAD挑战赛初期，一度以稳定的成绩长期位居排行榜榜首，但周明知道，这场竞赛的排名瞬息万变。2017年最后两个月里，科大讯飞与哈工大联合实验室、腾讯DPDAC NLP团队先后超过了他们。

　　新选手参赛大约两三分钟后，系统就完成了约50篇数百词的文章阅读和约1万个问题的回答。即使母语是英语的成年人，这个时间也才勉强读完5篇文章。

　　“对人类来说，读完一篇文章就会在脑海中形成一定的印象，比如这篇文章讲的什么人，发生了什么故事。人们能够轻而易举地归纳出文章里的重点内容，但对计算机来说不是这样。”周明告诉中国青年报·中青在线记者。

　　在SQuAD测试中，计算机需要阅读一段材料，然后回答诸如人名、地理位置等问题。不同于类似测试，SQuAD测试的回答可能是一段短语，而非某个单词或单个内容。它可能遭遇同义词替换、句子结构变换等情况，甚至需要综合多个句子进行逻辑推理。

　　为了解决这个问题，研究组模拟人类做阅读理解过程的方式，他们将整个过程分成了四步。拿到测试题后，计算机首先会学习文本和问题，就像我们做阅读题时，首先会通读文章，然后审题，获得一个整体印象。