面向青少年人工智能教育的多目标识别系统设计

2022-05-09高婷婷刘佳陆佳楠许伟陈传杰宋法根

电脑知识与技术 2022年7期

高婷婷　刘佳　陆佳楠　许伟　陈传杰　宋法根

摘要：人工智能的迅猛发展给人类生产和生活带来了较为深远的影响，成为新一轮科技产业革命的前沿和热点，而将人工智能教育融入中小学课堂已经成为国家新战略。然而，人工智能设备成本较高且配套教育资源较少，这给远离城市的中小学带来了很多困难。为了推动中国青少年人工智能教育的普及，减轻乡镇中小学校的经费负担，该文提出了一种基于K210人工智能芯片的图像识别系统。通过训练集图片收集标注、模型训练、硬件模块连接、模型部署和调试等流程，完成了一个简易的具有实时性的目标图像识别检测系统。该系统以YOLO算法为基础，通过获取实时图像并进行特征提取，实现分类和识别。经实验测试，该系统不仅识别迅速和操作便捷，而且具有较高的准确性、良好的系统稳定性和较低的制作成本。

关键词：人工智能教育;中小学;YOLO;目标检测

中图分类号：G642 文献标识码：A

文章编号：1009-3044（2022）07-0078-03

1 概述

面对人工智能新兴产业的迅猛发展，以人工智能为基础的新工科专业已经成为当下各高校的热门专业，如智能制造工程、智能医学工程等专业。对于中小学生而言，人工智能相关教育早在2001年的第一届全国青少年机器人竞赛中已经开始萌芽，然而大部分活动只是以课外活动、兴趣班等形式开展。当今世界正处于百年未有之大变局，为积极应对新一轮科技和产业革命，中小学也必须加快普及人工智能教育。2017年国务院出台了《新一代人工智能发展规划》，文件指出要推动人工智能在教学等方面的全流程应用。2019年国家教育部明确指出将积极推动中小学阶段设置人工智能相关课程。人工智能不仅是教师教育改革的新工具，而且是学生课程学习的新内容[1]。

2021年国务院办公厅、国家教育部相继出台了双减政策文件，其目的在于提高現有中小学育人水平。通过减少作业数量和严格规范校外培训，纠正过往教育中只重视考试成绩的极端现象，将青少年学生从大量作业和学科补习班中“解放”出来，使他们能够拥有更多的时间参加兴趣活动。在物理教学中，我们发现学生对教材中前沿科技内容十分感兴趣，例如智能机器人。然而，智能机器人设备造价一般都比较昂贵，这在很大程度上限制了部分非城镇中小学校生接触人工智能教育的机会。目前，只有部分一线城市的重点中小学校开展了相关的人工智能教育探索，而很多三四线城市尤其是乡镇中小学却举步维艰[2]。自研设备不仅能够很好地控制成本，而且能够在科技制作过程中对中小学教师进行培训，获得相关教学素材。人工智能是当今新一代信息技术前沿，而中小学教师在技术积累和研发经验方面都非常欠缺。委托人工智能相关教育公司可以解决问题，但是极大地增加了学校的经费预算，实际可操作性并不理想。为了克服中小学师资力量在技术方面的不足，综合各方因素，盐城环保科技城实验中学教学组联合地方理工院校（盐城工学院）共同开展了人工智能教育设备的相关研制工作。盐城工学院于2019年获教育部批准设立了人工智能本科专业，并与盐南高新区共建有西伏河人工智能学院，在人工智能软件和硬件条件方面（尤其是师资力量）具有充足的研发实力。

我们通过采用调查问卷和随机提问等方式，结果发现学生对车牌识别、人脸打卡和验证等技术的兴趣十分浓厚。近些年，这种计算机视觉技术已经成为人工智能领域的最热门研究领域之一，其中包括基于深度学习的图像识别技术。图像识别技术已经在众多领域有着广泛的实际应用，例如无人驾驶技术、人脸识别技术、生物医学诊断等。图像识别经历了文字识别、数字图像处理识别、物体识别三个重要阶段，其中物体识别集成了人工智能、深度学习等多个技术[3]。

2 系统整体设计

本系统主要由人工智能芯片及电源模块、语音播报模块、液晶显示模块和图像采集模块等四个模块部分组成，如图1所示。本系统的基本流程是通过图像采集模块获取外界图像信息，并将数据传送给AI芯片进行图像处理和分类，最后将图像信息及识别结果显示在显示模块上，同时根据结果判断播报对应的提醒语音。由于本系统针对教学教具目的，需要满足待机时间长和离线工作，本项目采用嘉楠科技的K210芯片为主控，其主要特点是功耗低（0.3W）、算力强（1TOPS）、具备自带SRAM和离线数据库，从而可以将训练集植入到芯片内部[4]。针对人脸检测、图像识别与分类等机器视觉应用场景，K210芯片提供有专用的人工卷积神经网络加速器（KPU）、硬件傅里叶变换加速模块（FFT）、独立的高性能浮点运算处理单元（FPU）、音频处理器（APU）以及各类外设接口（GPIO、SPI、I2C等），这些硬件资源极大地拓展了系统的应用范围。图像采集模块采用一款高质量、低噪声的摄像头（GC0328），它具有640 × 480分辨率和10位模数转化器。语音模块是根据AI芯片识别检测出的物体进行语音提醒，包括喇叭和TF卡，后者用于存储语音播放的具体内容。显示模块是一块2.8英寸的LCD显示屏，它主要用于调试过程中图像的显示识别。

3 主要硬件设计

3.1 K210芯片核心板

本系统采用技术成熟的基于K210的核心板，封装方式为BGA144，正方形的每边提供12个引脚（共144个），具体引脚功能描述参考说明书。电源域的IO引脚分配有14个。复位电路在上电、断电和欠电条件下实现复位。通过在RST引脚配置开关复位电路即可实现。图像采集模块GC0328摄像头采用24针接口连接到K210主开发板上。

KPU通用神经网络处理器主要用于对数据单元的内置卷积、批归一化、激活、池化运算单元，实现对人脸或物体进行实时检测。K210芯片能够支持当下主流训练体系和框架，并按照特定规则训练得到定点化的模型。它对网络层的数量无直接限制，支持每层卷积神经网络参数的独立配置，其中包括对输入输出（IO）通道数目和行宽、列高的设置，支持两种类型的卷积内核（1 × 1或3 × 3），实时工作状态时最大支持神经网络参数文件的大小为 5.5～5.9MiB，而在非实时情况下的容量大小取决于闪存大小。经过上述分析，该芯片完全满足我们作为教学用具使用的基本要求。

3.2 语音模块

为缩短项目周期，节省开发成本以及减少对K210芯片资源占用，语音提示模块特别选用了已量产的成熟的工程模块，该模块具有供电方便，驱动简单，方案成熟，语音清晰，自带硬件反馈等优点，极大加快了项目的开发进度精简了驱动的编写。

语音模块有外接和内接两种方式。为了减少外部电源资源负担，采用内接法由核心板给语音模块供电。语音模块的触发方式有单键触发和编码触发模式。本系统采用编码触发模式，如表1所示。与之对应的是A1～A5触发信号线与K210芯片的IO9～IO14链接，如图2所示。另外，语音模块的SPEAKER1和SPEAKER2连接到扬声器两端。

3.3 各模块系统集成

按照图1中各模块设计要求连接、焊接完成实物，如图3。为了便于后期的模型训练和实际应用，我们将LCD显示屏和摄像头分别置于面包板的两端，同时将喇叭音响放置在摄像头一侧。图3是整个硬件系统的布局，各模块在图中的位置已经详细标注。

4 主要软件设计

目前主流的勘智K210单片机软件设计的语言有基于官方SDK的C语言和Micropython语言两种，本次设计的软件程序选用Micropython语言进行编写。Micropython语言优点很多，我们编译环境角度来看：在一般嵌入式开发的过程中，C语言、汇编语言都需要提前安装编译环境，但是Micropython不需要。因为只要将程序文件main.py或者boot.py存入本系统中的Flash或者TF卡，烧录在开发板的固件便会将程序进行编译运行。只有将开发板上的USB口插入电脑或者将开发板上的TF卡接入电脑，电脑上便会显示出可移动磁盘，只需要通过记事本编辑可移动磁盘里的main.py或者boot.py文件，因此MicroPython不需要安装编译工具和配置环境，十分方便简洁，甚至开发工具只需要一个记事本程序就行。

另外，在汇编语言的环境下实现对底层硬件的操作比较简单，但是若要编写复杂功能的程序对学生和教师就比较困难，代码量巨大，Debug复杂。C语言相对于汇编编程具备有了库的支持而不用重复开发底层驱动，MicroPython有比C语言有更加丰富的库函数，这对教师和学生都是非常有用。

4.1 模型训练

本系统采用开源的目标检测算法YOLOv2，具有实时检测多种不同对象类别的优势，满足了日常大部分的需求[5]。YOLO是卷积神经网络在机器视觉上的运用，属于单阶段目标检测算法，通过网格划分实现快速的检测速度，v2版本在Faster R-CNN算法的基础上引入anchor机制。Faster-RCNN属于双阶段目标检测算法，相较于单阶段算法，检测精度更高，但是运算功耗和所需时间更长。YOLOv2采用了新的特征提取网络，通过结合network in network构想，通过在3 × 3的卷积核中插入1 × 1卷积核来进行特征图的压缩。详细的YOLO算法的讨论和改进可以查阅大量的文献。

从MaixHub平台下载19种常见的人物图片，其中包括汽车、狗、沙发、行人等，共计约236幅图片。由于YOLO算法要求图片大小为224 × 224，所以需要对待训练的不同物体模型的图片进行预处理，使其大小统一，以便于能够批量进行模型训练。借助于微软的VOTT工具对训练集中的目标进行标注，完成标注后导出项目。标注内容包括目标位置的框定和标识种类。训练集制作完成后，对YOLOv2模型进行训练，loss函数变化曲线如图4所示。从图4中可知，当迭代次数达到5次时，模型基本收敛，训练集loss约为0.5左右，验证集损失在1.3左右。

4.2 模型配置

K210是一款支持片上系统（SOC）的人工智能芯片，能够搭载预设的神经网络模型。系统支持Maixpy IDE开发环境，支持串口调试实时图像等功能。通过该软件完成训练集的制作，然后将程序调试完成后的主函数“main.py”植入到K210核心板中的TF卡中。然而，为了解决无法读取外存储器中模型的问题，利用官方提供的KFLASH软件将已经训练好的神经网络模型“m.kmodel”烧录到K210芯片内存储（flash）0x500000位置处。

5 实验测试与分析

在完成上述硬件连接和软件程序烧录后，利用移动电源给K210核心板提供5V电压，系统将按照图5流程运行。首先，系统对各外设接口进行初始化，包括FPIO的注册与映射。然后，对显示屏和摄像头等外设进行配置。系统将训练好的神经网络模型加载到KPU模块中，同时对YOLOv2的网格进行初始化。最后，将采集到的图像实时传输到KPU进行计算，得到目标类型、位置坐标、置信度。根据目标检测结果在屏幕上显示相应的字符，同时进行语音播报提醒。

图6为实验室内对摄像头等设备功能的预测试效果。可以看到，在摄像头采集到图像RGB信息后，可以在上位机中实时显示出图像3个通道的像素值，处理速度稳定在10FPS。

图7是在学校实际场景中不连接上位机的部分测试结果，分别是在单个目标和多个目标情况下的识别结果。结果表明，在单个目标情况下，物体的识别概率可以高达95%以上，多目标检测也有较好的准确性。因此，本系统已经基本达到满足日常教学的需求。在实际使用过程中，本系统K210芯片长时间工作温度上升较快，导致响应延迟时间增大。外置电源接口容易引发接触不良等问题，机器容易死机。后续需要针对性解决散热问题，同时将外置电源整合進样机系统内部，增设开关控制操作按钮。

6 结束语

为了推动人工智能教育在乡镇中小学的普及，本文提出了

一种基于AI芯片的图像识别系统，极大地控制了教具制作成本，积累了一定的教学素材和经验。从硬件设备选取和设计连接、神经网络模型的建立、配置等方面详细说明了系统的制作过程。系统采用自带KPU模块的K210作为主控芯片，以YOLO v2算法为目标检测算法。结果表明，本系统具有良好的检出率、可靠的系统稳定性。下一步将在本系统基础上，根据学生的兴趣爱好并从实践应用方面对系统进行升级改造，充分激发学生学习人工智能的热情，收集更多优秀作品作为今后的教学素材。

为了推动人工智能教育在乡镇中小学的普及，本文提出了一种基于AI芯片的图像识别系统，极大地控制了教具制作成本，积累了一定的教学素材和经验。从硬件设备选取和设计连接、神经网络模型的建立、配置等方面详细说明了系统的制作过程。系统采用自带KPU模块的K210作为主控芯片，以YOLO v2算法为目标检测算法。结果表明，本系统具有良好的检出率、可靠的系统稳定性。下一步将在本系统基础上，根据学生的兴趣爱好并从实践应用方面对系统进行升级改造，充分激发学生学习人工智能的热情，收集更多优秀作品作为今后的教学素材。

参考文献：

[1] 李丁钰，钱小龙.英国中小学人工智能基础教育的经验与启示——以苏格兰中学和巴顿西格雷夫小学为例[J].教育探索，2021（9）：88-93.

[2] 蓝子君.中小学实施人工智能课程的意义、挑战与对策[J].电脑知识与技术，2020，16（18）：182-183.

[3] 刘艳华.基于MATLAB的车牌图像的计算机识别系统设计[J].科技视界，2021（21）：78-79.

[4] Redmon J，Divvala S，Girshick R，et al.You only look once：unified，real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.June 27-30，2016，Las Vegas，NV，USA.IEEE，2016：779-788.

【通联编辑：朱宝贵】

收稿日期：2021-11-25

基金项目：江苏省高等学校自然科学研究面上项目（20KJB140025），盐城工学院“课程思政”示范课程建设项目（202159）

作者简介：高婷婷（1990—），女，辽宁大连人，中级职称，主要研究方向为初中物理教育研究等。