基于人工智能的分级阅读库建设

2020-10-23李妍

课外语文 2020年28期

李妍

（浙江外国语学院，浙江杭州 310023）

针对以汉语为母语的小学生，当下主流的汉语分级读物主要有以下三类：一是借用分级的概念，将世界名著换个包装。其实只是根据文章长短大概归类，或者是将过长的原著进行了改写或缩写，并没有具体的分级依据，这种分级做法是最简单随意的一种。二是将一些知名作家的作品用分级的概念重新包装。篇幅短的放到低年级，篇幅长、难度相对深一点的放到高年级。三是由名人编选的分级读物。编选者的学术水平决定了这类读物选编质量还是不错的，作为课外读物也是比较理想的选择，但是作为分级读物来说，其分级方法依据个人的学术眼光和经验，比较片面，有些篇目的分级也不甚合理。

为了弥补此项研究的缺陷，建立面向小学生汉语读本的人工智能分级体系，阅读分级，应包含三方面的内容，即“检定—内容—反馈”。“检定”，即以数据库为平台，参照部编版教材各年级要求和考试内容，从听转写和文字阅读两方面对于该年级学生的阅读能力进行检测。目前市面上未有被广泛使用且准确有效的检测手段，多通过数个阅读题目进行检测。但两到三题的阅读题量有限，无法准确反映情况；且由于未对阅读包含的知识点进行精准的切分，因而只能给出针对“词汇量积累”“信息提取”“文本理解”等区块的评级，粗糙且参考价值有限；一些体系并不按照年级划分，而是将所有水平划为1000～2000个级别，对于小学阶段各个年级的参考性不够。

为了能准确反映各年级小学生情况，我们设计如下测评体系：

一、将每个年级分成三档，从一年级至六年级，一共十八档。

二、对阅读所需知识点进行切分。语文与其他学科不同的是知识点难以有效按年段区分，其检测难度也在于此。参照词汇学、语用学等学科角度，将具体对象分为四个，即听、说、读、写四大角度，每个角度有若干个对应知识点。

从听的角度来说，我们将采用听写的形式，根据每个层级不同的学生具体情况，以小学一至六年级课本篇目及适合小学阶段阅读的名家优秀文章为基础，形成一套涵盖小学一至六年级不同层级学生的听力题库。听力题库也根据具体情况由易至难、从一年级至六年级划分六个等级，每一等级中也由易至难划分成三档，符合每一档的学生基本情况。当学生进行听力检测时，系统将根据学生所在等级，从题库中提取适合该等级的阅读篇目，在系统朗读的过程中，学生须集中注意力捋顺文章思路，摸清文章脉络，了解文章具体内容，从而回答系统根据文章具体内容所提出的有关阅读写作的四个问题。

从说的角度来说，在测试中测试系统会将图片从简单到复杂，从基础到有思想深度分成六个等级十八个层级，建立图片题库。系统将根据学生所在等级出示该等级随机图片，学生须对此图片进行看图说话，通过系统自动将语音转换成文本，继而通过对文本的检阅进行等级判定。学生们须对图片所表现的人物、环境、情节，进行口头表达，自拟题目，通过对时间、人物、情节的具体发散性描述，由系统转换成文本后进行语句通顺程度、词汇运用程度以及出现关键词比例对文章进行检定。每一等级学生对同一张图片所描述出的文本检定要求不同，通过系统对文本的检测，将文本划入符合要求的层级中，即为该学生在阅读写作“说”这一方面的能力等级。

从写的角度来说，测评系统将采用看图写作方式，通过图片题库根据学生所在等级随机选择符合该等级的图片，学生须对图片进行描述，从而完成一篇完整的文章，再通过拍下自己所写的文章，上传到测评系统中，系统会将图片转换为文本，通过对文本的检阅，进行对学生写作能力等级的判定。学生所提交的文章的好坏最基础的在于是否具有图片中所表现出的关键词，进一步通过对文章字、词、句的运用是否恰当，文章结构布局是否合理、文章层次是否清楚、文章中心是否突出、语言是否精练完整、思想是否有深度等等进行具体判定，通过对文章整体的检阅，从而划分该学生在“写”方面的层次。

从阅读的角度来说：1.词汇库和句法库建设；2.中文文本汇集与自然语言词汇切分算法应用；3.基于词法和句法的分级体系；4.针对读者的测试库研究和阅读分级目录研究。

为探清上述对象，本文拟由4大板块建构框架，对此体系的可行性进行讨论。

一、词法判别

一个词汇在阅读当中出现的频率越高，即越常见，读者就会越熟悉，相应阅读起来难度就会越低；相反，读者在阅读中遇到的词汇越不常见，阅读难度就越高。这是本读本分级使用词汇频率作为衡量语义难度的基本理念。然而本体系使用的词汇频率并不简单指某一个词出现在某一篇文章中的频率，而是在参考《汉语分级词汇表》的基础上，结合大型语料库计算得出的频率。

具体计算方式为：在语料库中，计算出某一个词汇在每X百万词出现次数的对数（log），并以此对数作为词汇频率。因此，文本中的词汇频率越高，本等级越低，从而越简单；词汇频率越低，本等级越高，即文本越难。

在算法检索的基础上，辅助汉语言文学专业人员进行人工过滤，避免词汇切分方面的错误。

二、句法判别

自然语言研究表明句子越长，难度越高。因为汉语长句中定语、状语和补语等修饰成分较多，读者不仅要接收更多信息，有些长句还存在双主语、多谓语和多宾语的情况，这样还要处理更复杂的句子关系，同时也要拥有更好的短时间记忆能力。因此，句子越长，等级越高；相反，句子越短，等级越低。本体系在计算一篇文章的句法难度时，会先将文章按自然句切分，然后进行语句平均长度统计。由于汉语本身的标点符号特性，依据逗号、上引号、冒号等第二等级标点进行子句长度统计。通过代数公式将子句与长句比率统计，得出句法等级。

句法主要依据：1.语句平均长度统计；2.基于标点的子句长度统计；3.子句与长句比率统计。

三、语料分级

以中外经典名著、童话寓言等，如四大名著经典章节，《昆虫记》《尼尔斯骑鹅旅行记》《海底两万里》等翻译外文名著，老舍、林清玄等著名作家短篇小说、散文，《中国寓言故事》《希腊神话故事》，安徒生、格林等神话寓言作为语料，进行如下操作：

（一）对待分级原始数据进行清洗及预处理

数据清洗，即在文本中找到我们感兴趣的东西，把不感兴趣的、视为噪音的内容清洗删除，包括对于原始文本提取标题、摘要、正文等信息，对于爬取的网页内容，去除广告、标签、HTML、JS 等代码和注释等。常见的数据清洗方式有：人工去重、对齐、删除和标注等，或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。

（二）特征工程于分级算法模型训练

做完文本预处理之后，接下来需要把分词之后的字和词语表示成计算机能够计算的类型。两种常用的表示模型分别是词袋模型和词向量。词袋模型（Bag of Word，BOW），即不考虑词语原本在句子中的顺序，直接将每一个词语或者符号统一放置在一个集合，然后按照计数的方式对出现的次数进行统计。词向量是将字、词语转换成向量矩阵的计算模型。目前为止最常用的词表示方法是One-hot，这种方法把每个词表示为一个很长的向量。这个向量的维度是词表大小，其中绝大多数元素为0，只有一个维度的值为1，这个维度就代表了当前的词。在特征向量选择好之后，接下来进行训练模型，采用有监督和无监督等机器学习模型，如 KNN、SVM、Naive Bayes、决策树、GBDT、K-means等模型；深度学习模型比如CNN、RNN、LSTM、Seq2Seq、FastText、TextCNN等。

（三）基于标准测试样本结合人工分级对分级算法进行优化

评价指标主要有错误率、精度、准确率、精确度、召回率等。以错误率为例，主要衡量分类错误的样本数占样本总数的比例。对样例集D，分类错误率计算公式如下：

随着时间和变化，可能需要对模型做一定的重构，包括根据实际效果对前面的步骤进行调整，重新训练模型进行上线。

四、认知分级

按照儿童的认知体系，在文本难度分类的基础上，按照认知语言学的逻辑进行认知分级，主要依照“自我-亲人—学校—国家—人类社会”的五等级进行细分。如《手推车大作战》，在依据词频、句法分类后，发现其文本难度并不高；但由于内容涉及战争、谈判、条约等“人类社会”等级的内容，因而在逻辑认知分级上层级最高，影响整本书的阅读等级分级。

通过以上研究，达到：1.依据现当代语言语料库，计算词频并建立词法、句法数据库；2.从词汇、句式、思想等角度对阅读文本进行词汇穷尽切分和等级分类；3.构建阅读分级体系并依据读者反馈建立阅读目标和计划；4.匹配读者阅读目标与文本等级，真正实现有效阅读，并最终建立面向小学生汉语读本的人工智能分级。