APP下载

基于大数据的精准招商策略的研究与应用

2021-09-17张瑞藜

科技信息·学术版 2021年10期
关键词:大数据

摘要:招商引资工作已经成为全国各地经济工作的重点,菏泽市贯彻落实山东省委、省政府的工作要求,在“双招双引”的上做了大量工作,取得了一定成绩,但仍存在一定的问题。本文针对当前问题,提出基于大数据精准招商的策略,其重要作用及突出贡献主要体现在以下三个方面:1.整合政府各部门和互联网企业掌握的相关招商分散数据,建立招商引资大数据平台,为政府招商提供面向特定主题的专业分析和智能研判,有效打破“数据孤岛”;2.通过数据爬虫技术,及时并不间断的收集网络上有关招商信息,实现数据的精确采集和自动增量采集,拓宽招商信息获取的渠道;3.利用大数据平台,从海量数据中挖掘和分析出数据之间的关联程度,让政府根据自身产业发展需要,筛选行业和企业,实现政府精准招商,高效招商。

关键词:大数据;精准招商;数据爬取

一、基于大数据精准招商的研究概况

1.1 研究背景

招商引资是指一个国家或者地区为了促进发展扩大开放,而采取的一系列提供优质的生产要素包括基础设施建立、投资环境创造等来吸引外来资金加入进行经营的活动[1]。在我们国家近几十年的发展历程中,招商引资对国家经济的发展起到了举足轻重的作用;在推进国家市场经济体制改革的过程中,承担了至关重大的角色。招商引资在促进经济发展的过程中可以起到连带效应,对人才培养、技术发展、生产力转型等都起到积极有效的作用。在基础设施、医疗、教育、住房、服务及社会福利等多方面的建设中,都得到了明显的改善,公共利益也能够得到有效的维护。在传统的招商引资模式中,政府起到了主导性作用。作为政府-制定政策、实施政策和监督执行的部门,他们具有权威性、指导性和话语权,又具有较高的可信度,可以通过举办大型招商引资推介会吸引知名企业,同时也使企业能有有效获取最前沿、最确切的政策信息,享受相关地方政府提供的相关扶持政策。

招商引资、招才引智是对外开放的核心内容,也是全国各地经济工作的重点。山东省委省政府在落实推进新旧能转换的工作中提出要高度重视“双招双引”工作,近年来,菏泽市在“双招双引”上做了大量工作,召开系列会议推出系列举措并取得了一定成绩,但与先进地区还具有一定差距,存在一些问题[2]。我市产业规划、项目策划还不够清晰、不够精准,招商的方向和重点不明确;需要招哪些项目、怎么招来项目这些方面,我们的方法不多,思想还不够解放。

大数据是继云计算、物联网之后IT产业又一次颠覆性的技术革命,它将会对政府和企业的数据中心产生颠覆性影响[3]。因此,新形势下的招商引资不是过去的翻版,而是具有高质量、高精度和专业化为主要特征的“升级版”。在信息爆炸式增长的大数据时代,菏泽作为经济欠发达的地区,要在全省激烈的招商竞争有所突破,政府招商部门就需要充分运用互联网思维、大数据技术创新招商模式,将招商引资工作提升到一个新的战略高度。

1.2 研究现状

目前,各地采用的招商引资形式多式多样各有侧重点,成效各有所长各有千秋,但同时也面临一些共性问题:由于对资源的分析深度有限从而造成信息的不对称[4];对引进目标项目的方向不明确、潜力发掘不深入。这些问题很大程度上削减了招商引资的成效,降低了招商引资的效率。

“大数据”的到来对当今社会的政治、经济生活已经产生了巨大变革,尤其对政务工作的开展也产生了深远影响。目前,北京、上海、深圳经济发达地区已经率先运用大数据思维开展招商引资工作。广西贵州、浙江桐乡、重庆国内诸多城市和地区也逐步建立了在线平台进行信息的共享以及数据的深入分析,实现招商引资的精准化、智能化。在当前经济发展常态化的环境下,菏泽市政府应尽早开展大数据招商方面的研究和试点,以提高招商引资精准度和效率。

1.3 研究的意义及重要性

研究本课题的主要意义及重要性體现为以下四个方面:

1. 响应国家提出的大数据战略。党的十八届五中全会提出“实施国家大数据战略”,党中央、国务院高度重视大数据在经济社会发展中的作用[2]。利用大数据技术实现政府精准招商,从而使政府招商工作实现智慧化和专业化。

2. 充分利用大数据资源确保招商精准化。大数据精准招商就是依托大数据技术获取有效的信息资源,为菏泽市打造具有区域特色的大数据平台,挖掘适合自身产业发展的资源价值,精准锁定目标企业,精准挖掘投资线索,从而实现高质量发展[2]。

3. 加强高校与地方的产学研合作,服务地方经济发展。菏泽学院计算机学院致力于大数据技术的研究、开发与应用,具有丰富的教育资源、科技资源以及大量人才,能为政府的宏观调控供理论论证、技术支持,加强地方政府和高校双方的合作能够带来巨大的社会价值[2]。

二、实施策略的主要方法及设计目标

2.1 主要方法

要创建具有区域特色的大数据平台,并从中挖掘适合自身产业发展的资源价值,最重要的是要研究分析建立哪些数据库,如何进行相关数据的采集以及如何进行数据整合,如何利用大数据技术挖掘有价值的资源、实现精准招商。因此,本课题主要通过以下三种方法进行具体任务的实施。

1. 收集资料。收集和整理相关资料是招商引资工作中一项十分艰巨繁重的任务,对所有环节都起着举足轻重的作用。要实现精准招商就要做到与时俱进、时刻关注新业态。当前,我们利用数据爬虫技术提升搜集资料和文献工作的高质高效性,同时,还可以利用数据挖掘及数据分析技术,研究分析政策法规,总结探讨新兴业态发展趋势,为开展下一步工作夯实基础。

2. 座谈与实地调研。召集市发改、经信、招商、市场监管等有关政府部门,进行座谈沟通,建立部门间数据交换机制;深入各部门现场,收集有关部门掌握的企业和项目数据,通过座谈和调研实现部门之间数据的整合,各项政策的无缝对接;多方联动有效促进建设大数据招商平台。

3. 理论与实验相结合。对研究的重点和难点算法进行充分论证,提出可行的方法和理论模型,然后通过计算机程序语言进行试验验证,评估算法执行的效果,不断改进和优化算法,以达到课题研究要求。

2.2 重点难点及分析

2.2.1. 重点

1.研究政府部门、企业、行业、网络等各类分散数据如何实现有效整合。2. 研究基于人工智能、机器学习的数据爬虫技术,设计智能爬取数据的算法。3. 利用海量数据多角度、多维度为招商决策提供基于数据挖掘的智能推荐引擎的设计。

2.2.2. 难点

2.抽象数据建模,设计和建立数据库。2. 数据爬虫智能算法的设计和实现。3. 针对不同的招商需求,设计相匹配的数据挖掘算法。

2.3 设计目标

针对当前地方政府在招商引资过程出现的问题及面临困难,本文实现以下三个设计目标:

1. 目前招商数据掌握在政府各部门和互联网企业中,呈各自分散的数据孤岛,通过招商大数据平台整合分散数据,可以为政府招商提供面向特定主题的专业分析和智能研判,有效打破“数据孤岛”,提高政府效能。

2. 通过数据爬虫技术,可以不间断、及时收集到网络上有关招商信息,实现了数据的精确采集和自动增量采集,大大减轻了招商信息收集的困难程度,拓宽了招商信息获取的渠道。

3. 利用大数据平台,可以从海量数据中挖掘和分析出数据之间的关联程度,让政府可以根据自身产业发展需要,筛选行业和企业,有效解决招什么,去哪里招,怎么招的问题,实现政府精准招商,高效招商。

三、精准招商数据库的构建

3.1获取数据的方法与途径

3.1.1 招商部门与各政府部门协调合作

要保证招商引资工作的有效运行,需要整合多部门的数据:政府数据、企业数据以及市场数据等。随着政府部门信息化建设的不断推进,发展与改革委员会、经济和信息化委员会、工商行政管理局,各地市的税务局、统计局等部门都基本形成了服务于本单位工作职能的数据库,并建立有效的综合数据平台,但目前这些数据是各自独立的,不能形成一个具有统一结构的和服务多部门能力的综合数据库[2]。因此,有必要将招商部门和各政府部门之间进行综合协调,形成不同部门之间的联动机制,以实现数据的互联互通。只有通过各部门的协同合作,才能构建好大数据平台,实现数据价值的最大化。

3.1.2 通过大数据爬虫技术对相关数据进行爬取

在招商引资过程中,政府需要充分掌握企业和项目的相关信息,不能再停留在使用传统搜索引擎的方式来搜索数据。大数据爬取技术的原理是按照某种算法规则,自动地爬取页面信息,将爬取到的页面内容作为大数据招商平台的数据来源,同时也可以为招商数据的分析提供数据源,并提取关键有用的数据来实现招商信息的精准获取。

3.2 建立招商引资数据库

根据设计目标,精准招商大数据平台的设计主要包括四个模块:

1. 建立基本信息数据库:这些数据主要来源于政务信息资源库中招商引资相关政策,同时还可以从政务信息库中获取企业注册信息、项目审批信息、企业财税数据、统计数据等数据,从政务信息资源库中获得的数据经过整合后,从其中抽取和招商引资密切联系的数据,汇总成招商基本信息库,在开展招商引资活动时,能够依托基本信息数据库第一时间掌握政策大风向[2]。

2. 建立项目数据库:项目库主要承载着项目的征集、包装、洽谈、签约、审核、落地等一系列活动的信息和状态掌握,重点记录各县区和市直部门集中签约和自主签约的项目,从项目签约、落地、建设、投产等各个环节进行跟踪记录[2]。

3. 建立重点企业数据库:动态收集并梳理筛选世界500强企业、中国500强企业、中国500强民营企业信息,综合考虑是否已在本地投资、行业准入限制、产能情况等其他因素,将其中一部分曾有过接触或者曾来考察的企业列为重中之重[2]。

4. 建立投資人信息数据库:动态掌握重点投资人信息,将在全市举办各种招商引资会展活动或参加大型国际、国家和省内外政府展会、商业展会、行业专业展会等活动的商业领域优强企业和领军人才纳入投资人信息库;同时对与市领导会见、与有关招商部门日常工作联系紧密的投资企业或投资人进行重点记录,并适时进行更新维护[2]。

3.3通过大数据分析提供招商决策

1. 利用海量数据挖掘预测性线索并构建招商通路。根据我市自身发展的需要,对行业和企业进行筛选,自主挖掘招商线索,以实现高效招商[2]。

2. 利用大数据技术实时跟踪和督导全市招商引资项目开发、项目签约、项目落地全过程,并针对项目推进的共性和个性化需求提供针对性的服务[2]。

3. 在大数据的支持下,通过建立经济模型,可以有效掌握地方资源和企业的匹配度,针对性分析特定投资人的需求,精准的筛选出潜在投资企业,并量身定制招商方案,从而快速提升招商效率,促进项目落地[2]。

四、关键技术的突破与实现

4.1 智能爬取算法的实现

要实现精准招商,最重要的环节是获取企业的信息,并对爬取到的企业信息主题词进行分析。首先,确定抓取的主题信息是否满足政府招商引资的相关要求,同时分析抓取到的URL和页面内容的关联度,并删除URL重复和相似度高的网页数据,使抓取的数据更精准高效。本课题采用的是基于美国哈佛大学Rabin教授提出的Rabin指纹方法为基本思想的智能爬取算法[5],该算法主要主要包括三个阶段:

1.按照爬取策略获取若干URL并对其去重;

2.遍历爬取的URL计算页面相似度;

3页面相似度达到阈值进行聚类。

4.1.1 URL去重方法

对URL 进行去重的基本步骤如下:

1.创建列表X存放URL指纹映射,并标记是否被访问;

2.创建列表U,被标记访问标识的URL存入U中;

3.遍历并计算每个URL的指纹值,存入列表X中。如果X[r]=0,则设置X[r]=1并存入U中;如果X[r]=1,丢弃。

4.1.2 页面相似度计算方法

各地政府在部门网站中发布的招商引资需求和咨询有很多的相似之处,而且知名企业的基本数据信息也会在互联网广泛的发布和宣传,这会为政企对接合作带来一定的难度。因此本文在爬取数据是要进行页面相似度计算,挖掘出与主题最相近的页面信息,以保证提取到最有价值的信息。该方法的好处是一方面能够有效提高提取相关信息的有效性,另一方面将屏蔽掉相似度较高的页面进而节约下载流量。对于页面相似度的计算,本文采用基于文本的页面相似度算法。该算法的基本思想是:1.对文本建模和表示;2.对文本进行分词处理;3.计算分词权重;4.用余弦向量计算相似度,相似度高于设置阈值,将判定为网页具有相同内容。

4.1.3 聚合式层次聚类方法

聚类可以作为数据挖掘过程中对数据进行预处理的方法,采用聚类算法有助于在爬取数据的过程中将同类信息进行分类。层次聚类方法是聚类方法中的一种,主要包括聚合式层次聚类和分列式层次聚类。本文采用聚合式层次聚类方法将相似结构的网页聚合到同一类中,选择其中一个作为代表性URL。

基本的算法思想为:1.将重复的URL删除,得到聚类之后的对象列表;2.设置阈值K,作为初始相似度值;3. 将大于阈值K的URL页面划分到不同的子类中;小于阈值K的URL页面继续从列表中获取值直至结束;4.获取没有重复和相似的URL页面。

4.2 数据分析算法的实现

通过数据爬取技术获取数据并存入招商引资数据库中并不是本课题的最主要的目的,而是在此基础上进一步挖掘出政策、企业、项目等信息之间的联系,对信息进行匹配、对接、整合,进一步提高招商效率,才是研究本课题最重要的意义。关联规则是数据挖掘中最常用的类型,它可以分析某些重要数据信息并分析其关联数据,从而反映某些信息与其他信息之间的相关性和相互依赖性。

五、研究总结与展望

本课题的主要思想是以政府各部门政务信息为基础,借助数据爬虫技术爬取社会化数据并挖掘对招商有价值的数据资源,利用先进的大数据技术,建立一个大容量、功能强大、信息丰富、安全可靠的综合型的招商引资大数据平台。通过对大数据的分析、预测和统计,可以实现数据寻商、数据引商、数据助商,畅通招商引资的途径和渠道,以实现招商引资工作的智能化、专业化和精准化[2]。本课题提出了实现精准招商的研究策略,距离实施运行还存在一定的距离。尤其在招商基础数据的爬取与采集、数据价值的挖掘、数据可视化和界面友好化还存在较大的研究空间。本课题下一步工作的重点将在这几个方面进行研究,以实现大数据精准招商平台的落地实施。

参考文献

[1]杜林. 新常态下招商引资方式的创新研究[J].宿州教育学院学报,2016,19(5)

[2]张瑞藜. 基于大数据的精准招商策略的研究与应用[J].科学大众,2020(8).

[3]赵倩倩,程国建,冀乾宇,戎腾学.大数据崛起与数据挖掘刍议[J].电脑知识与技术,2014,10(33).

[4]宋林霖,何成祥. 从招商引资至优化营商环境:地方政府经济职能履行方式的重大转向[J]. 上海行政学院学报,2019.

[5]梁正友,张林才. 基于Rabin指纹方法的URL去重算法[J].计算机应用,2008,12(28).

[6]P. Sumathia,R. Manickachezianb. Semantic Web Mining using Web Crawler and DOM Tree with EsvmModified SOM for Advanced Medical Information Retrieval System.[J].2017(12).

[7]郭濤,张代远. 基于关联规则数据挖掘 Apriori 算法的研究与应用[J].计算机技术与发展 2011(06):101-103+107.

[8]谢志明. 基于“云”环境下的数据挖掘并行关联规则算法研究与实现[J].长沙:湖南大学,2015.

基金项目:2019年菏泽市社会科学规划课题立项“基于大数据的精准招商策略的研究与应用”(2019-自筹-41)

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索