创新创业案例数据数据采集库的建设与分析

2023-04-07李美会

中国新技术新产品 2023年1期

李美会

（湖南环境生物职业技术学院，湖南衡阳 421005）

0 引言

创新创业数据属于低频金融数据，创新创业数据冗杂且多元化，在企业金融量化管理中需要对创业金融数据进行挖掘和特征分析，并结合相关算法对其数据采集库进行建设，有利于区分其数据信息、分门别类、优化创新创业板块，通过关键词搜索等能够快速进行查找，尤其是在提升创业基金融信息调度和管理方面具有重要意义。

1 创新创业案例数据数据采集库分析

1.1 创新创业案例大数据处理优势

创新创业案例数据处理主要采用大数据技术，并结合数据抓取、采集与分析，从相关数据网（青年创业网等）获取相关数据信息，通过该信息可进行相关判断，为创业者提供优质数据和信息。

传统创新创业在数据挖掘时往往采用的是随机采样法，调查结果虽然具有普遍性，但是与真实市场出入较大。采用大数据处理时，对其建立起的数据库和采集的全方位的数据，更加注重数据库之间的相关性分析，从海量数据当中利用关联规则和特征提取算法等对创业信息进行分类，有助于提高创业者对创业板块的分析能力。

1.2 系统的数据采集库的处理框架

系统的整体框架结构如图1 所示。系统的数据采集库的处理框架主要分为数据采集和存储，结合图1 内容，在数据采集和储存当中，需要对平台采集数据、创新创业数学数据等进行数据集合，为创新创业大数据平台提供数据源，并对数据进行分析，建立有效数据库，即通过数据挖掘、数据筛选等内容达到数据可视化。

图1 系统的数据采集库的处理框架

1.3 创新创业案例数据数据采集库相关算法论述

1.3.1 Apriori 算法

关联规则定义如下：假设I={i1，i2，i3，…，im}，其中I是项的集合，给定一个交易数据库；im为第m 项数据。D={t1，t2，t3，…，tm}，其中每个事务t是I的非空子集，即t∈I，每个交易都与一个唯一的标识符TID 对应。

概率P（X∩Y）：关联规则在D中的支持度（support）是D中事务包括X∩Y的百分比；置信度（confidence）是包括X∩Y的百分比。

P（Y|X）为条件概率，表示在X条件下Y的概率，置信度即可靠度，可判断其关联特征。

关联规则可对数据进行挖掘：1）频繁项集查询。2）由频繁项集产生强关联规则。

Apriori 为逐层搜索的迭代方法，k项集用于探索（k+1）项集。结合数据处理，通过项集查询，达到集合，计为L1、L2，可概括为2 项集的集合，L2用于寻找L3，直至达到k项集。

Apriori 算法可提高频繁项集的效率，根据频繁出现情况进行分析，其所有非空子集必须是频繁的，判断阈值min_sup与项集I是否满足。如果I满足阈值，则I为频繁，即P（I）＜min_sup。项集（即I'A）不可能比I频繁。两者皆不频繁，即P（I'A）＜min_sup。

1.3.2 决策树算法

决策树（Decision Tree）[1]为分析预测模型。结合决策树需求，能够根据算法采用自上而下的递归方式，并结合属性进行判断，通过决策了解其特征属性，进而进行数据挖掘，形成数据分支，这样能够解决分类问题，达成预测，并实现分类[2]。

一个简单的决策树实例如图2 所示。该决策树将整个样本空间分为2 类，是或否。如果一个样本的奥特卢克属性取值为晴朗且湿度属性为正常，则该样本为是；如果一个样本的奥特卢克地区属性取值为下雨且有风属性为强，则该样本为否。

图2 决策树算法

1.3.3 特征选择算法

特征选择（Feature Selection）是结合事物本身共有或相关特征对应用领域的一个描述。特征选择可从N个原始特征中选择一个最小子集，包括M（M≤N），使包括M个特征的子集中不同类别的概率分布值接近于N个原始特征。如果FN是原始特征集而FM为选出的特征子集，则可能的类别C条件概率P接近，其中fM和fN为相应的特征矢量FM和FN的值矢量。

总的来说，特征选择算法可对数据描述进行简化，使数据收集任务化繁为简，进而可解决问题，提高数据集的质量。当数据集特征数很大，需要对其进行降温。CFS（Correlationbased Feature Subset）算法[3]，即基于相关性的特征选择算法。对连续变量，CFS 方法用特征子集的得分（Merits）来衡量其关联度，如公式（1）所示。

式中：k为子集的变量数[4]为特征子集中所有自变量和目标变量之间相关性的均值为特征子集中自变量两两之间相关性的均值。

而对连续-离散型变量，则需要把连续变量进行离散化处理。如果离散化以后的变量分别为X和Y，则计算公式如公式（2）、公式（3）所示。

式中：p（y）为y的概率；p（y|x）为在X条件下Y的概率；H（Y）为Y信息熵；H（Y|X）为在X条件下Y的信息熵。

再计算信息增益（gain），即先验信息熵和后验信息熵的差值，如公式（4）所示。

然后计算变量之间的均匀不确定度，如公式（5）所示。

如果不确定度越大，则相关性越小。评估每个特征子集中各个变量之间的相关性，能够根据特征进行数据分类，更有利于数据的处理。

2 创新创业案例数据数据采集库的建设与分析

2.1 外部库调用

结合外部库调用，利用pandas itertools 和自带的time 进行数据处理，结合青年创业网等数据，输入“import pandas as pd”进行数据导入，import itertools as it #子集生成，并进行处理，完成数据集。

2.2 数据导入

全函数编写，由“if __name__ == '__main__'：#”导入数据，data = data.applymap（lambda x： str（x）.strip（）） # 删除导入时可能存在的空格值，例如“教育”成了“ 教育”。最终的数据导入在代码最后，根据数据导入设定支持度和置信度。

2.3 数据处理

输出所有Goodlist，事实上也就是备选频繁1项集，这个函数不太重要，后续调用也完全可以替代为别的方式，编写的目的是便利逻辑过程的一种方式而已。

2.3.1 项集重组

因为Apriori 是通过满足支持度阈值的频繁k项集得到备选频繁k+1 项集合，所以这一个函数的目的便是进行项集重组和升阶化的过程。这个不是放在最前面的逻辑，而是预先编写，是为了后面直接调用的准备工作。可以发现也都是for 循环，连while 等都不带。由于导入数据选择的是列表格式，因此后续工作也都利用list 来完成，那么list 就需要一直for 循环调用，不像dict中直接for item in dict 等方便清晰。

#在关联分析中，频繁k项集得到备选频繁k+1 项集合，能够保证数据信息分类准确。

2.3.2 支持度扫描与输出

这里就回归了逻辑线条，该文提供2 种方法，一种是输出counts，一种是输出rates，即支持频数和支持度的2种衡量办法，仅供挑选，2 个函数没什么区别。本find_rule 函数用的是counts 函数，如果要换，记得调整为rates。

#输出每个k-项频繁集的候选集的比率。#输出每个k-项频繁集的候选集的个数，上有比率写法，两者无本质区别，都可以使用。

def sup_counts（df，data）：#输出每个1-项频繁集的候选集的次数。

2.3.3 根据最小支持度阈值进行减枝叶

Apriori 算法的核心就是通过剪枝来减少扫描难度的。因为非频繁项集的超级也一定不频繁。

#得到满足最小支持度阈值的关联规则（find——rule of min-sup-rate item）。

if dt[j][-1] ＞= min_suprate*n： ##减枝过程。

2.3.4 对每个频繁项集进行子集拆分计算confi 和rule挖掘

这个函数也是一个中间函数和预备工作。前提是频繁项集，如果不是的话，数量可能会非常多，很难挖掘和通过Good_list 清单来生成所有的1/2/3/.../k项备选频繁集，即Apriori 算法的核心。

def Ksubset_get（df）： #获得非空子集。

2.4 数据采集库建设结果分析

结合Find_rule，选择list 进行数据处理，结合事物总数获得关联规则的重组，得到置信度，了解数据处理情况。决策树算法能够读取数据集合，构建类似于如图3 所示的决策树。决策树可厘清数据中所蕴含的知识信息，本数据采集库建设时，该文对其创业种类进行了划分，因此决策树可以对数据集合进行划分和机器学习。例如对食品生产行业属性进行划分时，根据形态，可划分为休闲零食属性和饮料行业，在进行更细的划分，确定创业类型。

图3 决策树

输出结果，结果统计表见表1。根据表1，结合决策树分析，并通过编程可以看到，输入支持度和置信度0.3，0.3，整个程序confi 值可以输出，其结果大于0.7，说明相关度高，数量建设具有可靠性。例如食品生产行业和饮品饮料相关度高，说明可以根据相关度进行种类分析，进而对创业种类进行划分，了解目前创业情况，为创业发展做准备。另外整个程序的运行速度还是比较快的，加入更多的good 和tid 之后，可以保持较快的输出速度。数值为0.00099945068359375，能够有效进行数据库建设。

表1 结果统计表

3 结语

创新创业数据可反映创业开展的状况，该文结合Apriori 算法、决策树算法以及特征选择算法，实现了企业创业期金融数据的采集。并对其支持度和置信度进行设置，数值为0.3 和0.3，其置信度数值均超过0.7，置信度强，说明数据库建设具有可靠性。创业者可对创新创业数据进行数据挖掘和分析，并对这些量化数据进行研究，进而提高创业成功率。