基于模糊C均值聚类的嵌入式数据库并行推荐算法

2016-05-14林海霞

软件导刊 2016年5期

林海霞

摘要：嵌入式网络数据库优化访问的关键是对访问目标数据的准确推荐和挖掘，以实现数据的准确检索。提出一种基于模糊C均值聚类的嵌入式数据库并行推荐算法，构建嵌入式数据的数据结构模型，进行数据信息流属性集特征提取。采用模糊C均值聚类算法实现属性分类，以此实现嵌入式数据的库并行推荐和挖掘。仿真结果表明，采用该算法进行数据库访问，精度较高，执行时间较短，性能优越。

关键词：模糊C均值聚类；嵌入式数据库；数据挖掘

DOIDOI：10.11907/rjdk.161332

中图分类号：TP312

文献标识码：A 文章编号：1672-7800（2016）005-0050-03

0 引言

在嵌入式网络数据库技术广泛应用的今天，嵌入式网络数据库已经成为互联网、局域网和大规模集成系统的重要数据存储介质。嵌入式网络数据库通过分布式云计算和云存储方法进行数据调度和管理，在嵌入式数据库中，需要对网络存储介质中的数据进行有效地分类管理和信息获取，并对获取的信息进行有机分类和聚合，以实现对嵌入式数据库的准确检索和数据的并行挖掘。

传统方法中，对嵌入式网络数据库中的待检索数据挖掘模型主要采用如高阶累积量特征提取方法、时频分析与特征提取方法、小波分析方法、支持向量机分类挖掘算法等[1-3]。上述方法通过对嵌入式网络数据库中的数据进行相空间重构分析，在高维相空间中进行数据的特征分类和数据融合，以实现特定数据的典型性特征提取，达到数据匹配挖掘的目的，具有较好的应用性能。但是传统方法具有计算开销过大、抗干扰性不好等缺点，对此相关文献进行了算法改进设计。其中，文献[4]提出一种基于决策时分类搜索引擎构建的嵌入式网络数据库中的数据挖掘和文本检索方法，建立了嵌入式网络数据库中的待推荐检索数据的分布结构和数据信息流模型，对数据信息流进行抗干扰滤波处理，实现嵌入式网络数据库的数据访问和挖掘。但上述方法在进行数据挖掘过程中，采用关联特征提取方法进行数据库特定数据推荐，在大规模数据分布和分布式云存储数据的外界干扰下，数据挖掘的准确度不高。针对上述问题，本文提出一种基于模糊C均值聚类的嵌入式数据库并行推荐算法，构建嵌入式数据的数据结构模型，进行数据信息流属性集特征提取。采用模糊C均值聚类算法实现属性分类，以此实现嵌入式数据的库并行推荐和挖掘。仿真结果表明，采用该算法进行数据库访问，精度较高。

1 嵌入式网络数据库结构与数据信息流模型构建

1.1 嵌入式网络数据库结构分析

假设V=[v1，v2，….，vn]表示同阶匹配的向量，即一个存储调度方案。经过模糊C均值聚类结合Fourier变换，对嵌入式数据库系统而言，vi代表第i个存储状态集合的资源节点，β为K-L特征压缩系数。采用K-L变换进行特征压缩，在数据库存储空间进行模糊C均值聚类属性特征重组的基础上，在幅值稳态下，使数据库内部的状态和行为控制能力可以自动运作，并用计算机相关语言进行控制管理。通过上述处理实现了对数据库并行推荐算法的改进，改进算法实现流程如图1所示。

3 仿真实验与结果分析

为了测试本文设计的算法在实现嵌入式网络数据库访问和并行数据推荐中的性能，进行仿真实验。实验建立在Matlab仿真软件程序基础上，嵌入式数据库的并行测试数据来自大型KDDP2015网络数据库，以8个通道数据为一个数据文件进行数据采样。在数据采样过程中，系统的CPU主频较低，各个通道数据的排列格式采用均匀分布排列。假设数据采样的时间间隔为1.2s，频带为3～15 KHz，通过上述实验参数和环境描述，启动VISA资源管理器进行数据加载，并进行仿真，得到原始数据库采样信息流波形如图2所示。

由图2可见，原始的嵌入式数据库信息流受干扰较大，难以实现准确访问。采用模糊C均值聚类算法进行数据聚类处理，得到模糊C均值聚类后的数据输入如图3所示。

由图3可见，采用本文方法进行数据库的信息流聚类处理，有效提高了待检索数据的推荐能力，提高了数据库访问精度。为了对比算法性能，采用本文算法和传统算法，以数据库并行推荐访问的收敛度为测试指标，得到性能对比结构如图4所示。由图可见，采用本文算法，收敛性较好，执行时间较短，数据库访问和检索数据推荐的准确度较高。

参考文献：

[1]王晓初，王士同，包芳，等.最小化类内距离和分类算法[J].电子与信息学报，2016，38（3）：532-540.

[2]WU X，ZHU X，WU G，et al.Data mining with big data[J]. IEEE Transactions on Knowledge and Data Engineering，2014，26（1）：97-107.

[3]王永贵，李鸿绪，宋晓.MapReduce模型下的模糊C均值算法研究[J].计算机工程，2014，40（10）：47-51.

[4]GU R，YANG X，YAN J，et al.SHadoop：improving MapReduce performance by optimizing job execution mechanism in Hadoop clusters[J].Journal of Parallel and Distributed Computing，2014，74（3）：2166-2179.

[5]GU R，HU W，HUANG Y H.Rainbow：a distributed and hierarchical RDF triple store with dynamic scalability[C].Proceedings of the 2014 IEEE International Conference on Big Data. Washington，DC：IEEE Computer Society，2014：561-566.

（责任编辑：黄健）