APP下载

基于Android平台的异常软件智能检测方法的研究

2021-03-22黄玉书

电脑知识与技术 2021年6期
关键词:机器学习检测

黄玉书

摘要:当前智能手机市场中,Android系统的智能手机市场比例较大,而在丰富的应用软件中混杂着一些不易察觉的异常软件,Android平台软件的安全问题引起很多学者的注意。該文从低能耗开销目的出发初步恶意软件的检测,设计了基于权限特征的异常软件智能检测方法,首先对样本的权限信息的进行提取,然后根据CFS算法进行权限属性选择,最后利用AODE分类器对属性过滤后的权限特征进行分类,实现了异常软件轻量级初步检测。

关键词:Android;异常软件;检测;特征选取;机器学习

中图分类号:TP311        文献标识码:A

文章编号:1009-3044(2021)06-0068-02

1 绪论

当前智能手机市场中,Android系统的智能手机市场比例较大,是目前使用范围最广的手机系统。由于Android系统具有免费开源的特点,在丰富的应用软件中混杂着一些不易察觉的异常软件,加之用户的安全意识薄弱,Android平台软件安全问题亟须解决。本文为了解决Android平台中软件安全问题,利用机器学习,结合恶意软件特征值的方法进行检测。根据能反映软件恶意倾向的权限,设计检测方法,目的在于以较小开销实现了异常软件轻量级初步检测。

2 Android平台异常软件相关检测理论

2.1 Android安全机制

Google公司在设计开发Android操作系统时从Linux内核、本地库和运行环境以及应用程序框架这三个方面设置了相应的Android安全机制[1]。

2.2 机器学习概述

机器学习[2]是近20年开始兴起的利用计算机来模拟人类学习的一个复杂的学科。机器学习在人工智能跟统计分析的这两个领域得到最广泛的应用[3]。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法,是一类从数据中智能分析获得规律,并利用规律对未知数据进行预测的算法[4]。本文用机器学习的方法进行研究,是因为机器学习具有智能性,不强烈依赖重量级的库,而且还具有预测未知样本的能力。本文涉及的机器学习算法中关键的技术是特征选取和分类算法。在机器学习中分类是比较重要的方向,分类的基本思想是:通过样本的学习,得出分类器,利用分类器预测未知样本的类型。

2.3 Android恶意软件检测技术

目前针对异常软件检测方法有两大类,根据软件在检测过程中是否需要运行软件,将检测技术划分为动态检测技术和静态检测技术。

本文从节省开销方面考虑,设计了基于机器学习的特征值检测方法,通过学习正常软件和恶意软件特征,形成分类器,利用分类器对待测样本实现分类。这种方法不强烈依赖重量级的库,能够用来检测未知的恶意软件。本文设计了基于权限特征的智能检测方法进行检测,这种方法对系统资源开销较小。

3 基于权限特征的异常软件检测方法

3.1 权限特征检测方案设计

本章根据权限特征进行分类,首先要进行样本的权限信息的提取,然后根据CFS算法进行权限属性选择,选择权限属性与类属性相关度高的属性并且去除掉冗余属性,然后用AODE分类器对属性过滤后的权限特征进行分类,通过先验概率计算正常与恶意的后验概率,最后把后验概率最大的类别作为该软件的类别。整个方案的流程图如图1所示。

3.2 权限信息处理模块

根据本文设计的权限特征检测方案,要对获取权限特征值,首先要提取软件的权限信息,然后对提取的权限进行特征映射形成特征向量。本文采用的是CFS算法对权限信息进行特征提取,该算法采用的是CfsSubsetEval的评价方法,利用相关性来评价属性子集,选取的是对类属性具有强相关的以及属性与属性之间具有弱相关或者不相关的属性子集作为权限特征。

3.3 AODE分类模型

本文根据一种缓解属性间相互独立地条件假设且性能较为出色的平均、一依赖分类器(Aggregating One-Dependence Estimators,简称AODE)算法进行分类。

其中,[Πxk]为[xk]的父亲结点。由于AODE分类器是基于朴素贝叶斯算法改进的,是对属性间相互独立的一种弱化,符合本文权限属性之间不一定独立实际情况,具有较好的应用场景,所以本文中的权限特征分类的算法选用该算法来实现分类预测。

4 权限特征的异常软件检测实验结果与分析

4.1 实验样本

为了保证样本的多样性,本文的正常软件样本包含了十类常见的软件,本文实验中的正常和异常软件样本的数量,经过人工整理,组成了500个正常样本和 500个恶意样本,共同组成实验样本。

4.2 全部权限属性分类算法实验

本实验用AODE分类模型与其他三种常用的分类模型进行对比实验,分别对不同测试数据进行均值计算,得出结果如表1所示。

4.3 权限特征属性分类算法实验

1)实验过程

前面对样本的全部权限作为特征进行分类实验检测率有较高的检测率,接着对权限特征进行选择,进行CfsSubsetEval属性选择后,产生最佳属性子集。权限属性由不包含类标记的135个全部属性,减少为15个,属性特征数量明显减少。

2)实验结果

本次实验与权限的全部属性分类中采用的是相同的数据集,针对不同的训练样本和测试样本数量进行实验,分别对不同测试数据进加权平均计算,得出经过CFS属性选择后的上述分类算法在不同训练数据的平均值如表2所示。

4.4 实验结果对比分析

经过属性选择的AODE分类算法具有较高的准确率和检测率。属性选择前后,基于权限特征的异常软件检测结果如表3所示。

经过属性选择后的特征数量明显减少,只有15个,说明经过权限属性特征选择的AODE分类器的维数显著减少,而分类精度基本保持不变,能明显减小能耗开销,具有较好的性能。

5 结论

以上实验表明,本文基于AODE分类模型的分类精度相较于基础的NB模型有了明显的提高,也高于ID3和IBK的分类精度。而利用CFS算法对权限属性进行特征选取,得到的权限特征数量明显减少,节省了能耗开销,AODE分类算法的检测率变化不大,仍然具有较高的准确率。验证了运用CFS属性选择与AODE分类器相结合的检测方案的优良性,实现了异常软件轻量级初步检测。

参考文献:

[1] 吴倩,赵晨啸,郭莹.Android安全机制解析与应用实践[M].北京:机械工业出版社,2013.

[2] Mitchell. Machine learning[M].Burr Ridge,IL:McGraw Hill,1997.

[3] 高新波,张军平.机器学习及其应用[M].北京:清华大学出版社,2015.

[4] 李航.统计学习方法[M].北京:清华大学出版社,2012.

【通联编辑:代影】

猜你喜欢

机器学习检测
“不等式”检测题
“一元一次不等式”检测题
“一元一次不等式组”检测题
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究