APP下载

基于技术关联关系的企业研发潜在合作伙伴识别方法研究综述

2023-10-07赵展一钟永恒

现代情报 2023年10期
关键词:相似性关联语义

赵展一 钟永恒 王 辉 刘 佳

(1.中国科学院武汉文献情报中心,湖北 武汉 430071;2.中国科学院大学经济管理学院信息资源管理系,北京 100190;3.科技大数据湖北省重点实验室,湖北 武汉 430071)

研发合作(R&D Cooperation),是指多个创新主体通过共享独有技术来加速创新过程所采取的联合行动,常用于产业界[1]。企业研发合作则是指企业作为需求主体,与同行、上下游供应商、科研院校、客户等主体共同研究与开发新技术、新产品的行动,其本质是一种共同的知识创造过程。目前,技术创新过程越来越复杂,研发难度大,学科交叉性强,产品更新快,风险和不确定性高,为降低研发风险,增强竞争优势,企业已将研发合作视为生存发展与技术创新的重要手段之一。

现有研究对研发合作的影响因素及其之间的关系进行了探索,发现创新主体之间的战略契合程度、需求匹配程度、合作偏好程度、信任水平程度以及政府支持力度、中介代理水平等[2-5]外部因素均会对研发合作产生影响,为了解研发合作行为的机理奠定了基础。关于研发合作伙伴的评价指标体系也不断完善,在候选合作伙伴已知的情况下,通常从研发能力、市场能力、合作能力等维度考虑选择最佳合作伙伴[6]。但如何在候选合作伙伴未知的情况下,从众多创新主体中识别具有合作潜力的伙伴,预先掌握合作伙伴情况,降低研发合作风险,仍是研究难点。

梳理文献发现,潜在研发合作识别方法主要包括两类:基于实体链接关系的方法和基于技术关联关系的方法。基于实体链接关系的方法,是指以实体之间已经真实存在的链接为依据,如专利合作申请关系、专利转让许可关系等,利用复杂网络、链路预测、深度学习等方法推断实体之间未来进行研发合作的概率。这类方法考虑了实体之间的合作偏好程度,但受限于现有网络,无法扩展到新增节点去发现新的合作关系,也未深入到技术内容层面去分析实体之间合作的合理性,不够有说服力。基于技术关联关系的方法,是指实体拥有的技术存在某种关联关系,如共同关注某一个技术领域、拥有同一技术问题的不同解决方案等,依据这种内在的技术关联关系去识别潜在合作伙伴。这类方法考虑了研发合作的本质动因,即创新主体希望获取异质技术知识来提高自身竞争力,只有在分析技术知识的基础上去识别研发合作伙伴,得出的结果才是科学可靠的。因此,有必要系统梳理基于技术关联关系的企业研发潜在合作伙伴识别方法,了解现有方法和识别效果,揭示其中存在的问题,总结未来的发展方向,为完善面向企业研发潜在合作伙伴识别的情报分析方法体系提供借鉴,助力企业寻找对口伙伴,制定合作战略,提升研发效率。

1 技术关联关系

技术是为实现某一特定目标所采用的特定方法,是制造某种产品所需要的系统知识、工艺或服务[7],因具有系统性和隐含性的特征,技术以纵向或横向的方式不断扩散、交融,并重新组合为新的技术,形成庞大的技术关联网络。通常,某一项技术发生变化时,也会引起与之关联的多项技术的变化,如智能手机技术直接影响了通信、传媒、教育等技术,还催生了电子商务等新技术。由此可见,技术不是孤立的,而是存在着复杂的关联关系,深入分析创新主体之间的技术关联关系有利于细粒度地、准确地分析其合作潜力与合作方向。

技术关联关系的定义与类型尚未统一。黄斌等[8]依据专利是否共类将技术关联划分为直接关联和间接关联。冯秀珍等[9]依据技术是否具有共同用途将技术关联划分为直接关联、间接关联、关键关联,并提出技术关联链、环、网、群、子群等概念。Vaez-Alaeim M等[10]将企业间的技术关联关系划分为相似性技术、互补性技术、无关性技术。徐珍珍等[11]依据研究问题与技术方案的对应关系将技术关联划分为直接竞争关系、间接竞争关系、合作关系、包含关系,并提出了基于问题—技术矩阵的技术关联自动发现方法。王莎莎等[12]将技术关联关系划分为基于技术知识结构与内容的等价性关联关系和基于技术知识溢出与流动情况的非等价性技术关联关系。现有研究对技术关联关系的分类大多较为粗糙,仅划分为强、弱或直接、间接,少有研究关注技术关联关系的具体类型。

杨冬敏[13]比较全面地考虑了时间、空间等因素的影响,从技术沿革、技术应用、技术体系结构、技术知识单元4个维度将技术关联关系细分为取代、发展、完善、补充、竞争、互补、包含、平行、交叉、继承、兄弟、交融关系。借鉴该分类方式,并结合技术关联关系在企业研发潜在合作伙伴识别领域的应用,本文将技术关联关系划分为技术承继、共现、结构、应用关系以及复合技术关系。

如图1所示,技术承继关系,是指随着时间推移技术之间相互借鉴、创新、完善、融合的关系,T1、T2、T3、T4、T5、T6为典型的承继关系;技术共现关系,是指技术之间共同出现或通过第三方共现的关系,T1与T9、T10为直接共现关系,T1与T11通过T10形成间接共现关系;技术结构关系,是指从技术体系结构和知识单元的角度理解技术关联关系,技术体系结构是指根技术与其分支技术构成的技术系统,具有层次性、整体性,t1、t2为T6的分支技术,属于同一技术体系结构。技术知识单元是指某一技术及其同级技术构建的技术模块,具有并行性、协同性,T6、T7、T8为并列技术,t1、t2也为并列技术,属于同一技术知识单元,技术知识单元是技术体系结构的一部分;技术应用关系,是指依据是否用于解决同一问题将技术关联关系划分为直接竞争关系、合作关系、间接竞争关系,T2、T3可用于解决Q1,形成直接竞争关系,T3、T4可分别用于解决Q2、Q3,也可通过组合用于解决Q4,形成合作关系,相互补充,还可与T5组合用于解决Q4,此时T3、T4与T5形成间接竞争关系。现实中的技术关联关系往往是多维且复杂的,本文将涉及两种及两种以上类型的技术关联关系定义为复合技术关系。

图1 技术关联关系的类型

2 基于技术关联关系的企业研发潜在合作伙伴识别方法

为全面把握基于技术关联关系的企业研发潜在竞合目标识别方法及其效果,检索并梳理国际国内相关研究进展。国内研究以“CNKI”为数据源,以“R&D合作”“研发合作”“产学研合作”“合作识别”“伙伴选择”“技术关系”“技术关联”为主题词进行检索,国际研究以“Google Scholar”为数据源,以“R&D Cooperation”“R&D Partner”“Technology Cooperation”“University and Industrial Cooperation”“Cooperation Identification”“Cooperation Selection”“Technology Relation”“Technology Association”为主题词进行检索,筛选出136篇重点文献。基于此,将企业研发潜在合作伙伴识别方法按照基于技术承继、共现、结构、应用关系以及复合技术关系5个维度来梳理,如图2所示,归纳各类方法的优缺点,总结当前研究存在的问题和未来研究方向。

图2 基于技术关联关系的企业研发潜在合作伙伴识别方法分类

2.1 基于技术承继关系的识别方法

作为技术成果的重要载体,专利文献已成为技术情报的关键来源,专利引用本身就体现了技术流动和演进的过程,现有研究基于技术承继关系的识别方法主要通过专利引用分析实现。

专利引用是申请人和审查员共同的行为,包括直引、共引和共被引。直引是指多件专利直接相互引用的关系,通常与分类号、关键词等信息结合使用,如表1所示。例如,李睿等[14]建立两国专利权人的直引关系,通过关联强度筛选候选合作组对,再通过引用跨越度分析竞合技术。共引和共被引分析应用较多,分别指多件专利引用同一件专利或被同一件专利引用,通常认为共引或共被引次数越多,技术关联越强,研发合作概率越大。例如,李睿等[15]基于专利共引关系建立两国专利权人—技术领域二模网络,通过不同技术领域之间的专利共引强度定位两国共同关注的技术领域,揭示国家(地区)间的研发合作机会。许海云等[16]以论文—专利的共引与共被引关系表示科学—技术的关联关系,根据被专利引用的论文比例、被论文引用的专利比例确定科学—技术关联特征,提出了不同关联特征下的新兴主题产学研合作模式,完善了产学研合作识别的方法体系。

表1 引用分析方法对比

引用关系可以反映双方是否具有共同关注的技术领域,并且具有成熟的理论、方法和工具支持,但其局限性在于:①动机不明,无法区分积极引用和消极引用;②具有时滞性,无法反映最新文献的引用关系;③未深入技术文本层面,无法进一步揭示合作潜力。

2.2 基于技术共现关系的识别方法

基于技术共现关系的方法是指通过分析技术特征项共同出现的现象揭示创新主体之间的关联,包括共类分析、共词分析等,如表2所示。专利分类号能够体现技术的应用领域和主要功能,易获取和量化,应用最多,例如,温芳芳[17]通过专利权人的共类数量、共类频次分析企业潜在合作关系,认为共类数量越多,共类频次越高,专利权人技术相似性越强,合作潜力越大。专利文献没有关键词,现有研究通过TF-IDF等方法抽取特征词作为共词分析的依据,以进一步分析机构之间的合作方向。例如,Li S等[18]基于机构共同分类、引用耦合、主题共现关系建立机构相似性矩阵,识别核心专利组合和技术转让合作伙伴。基于多重共现关系的综合分析结果更加可靠,例如,Fritsch M等[19]建立基于合作项目、专利、论文的多模异构网络,发现结合3种数据捕获的合作关系更全面。

表2 共现分析方法对比

共现分析通过技术特征项的共现现象揭示隐含的技术关联,可以为识别潜在合作提供参考。但其局限性在于:①共现分析无法提供潜在合作概率;②共类分析、共词分析都无法深入地揭示文本语义关系;③共现分析大多通过共现数量、共现频次体现合作潜力,信息量较少。

2.3 基于技术结构关系的识别方法

基于技术结构关系的识别方法是指从技术文本中抽取符合规则的语义特征,形成技术体系结构或知识单元,通常以技术树或知识图谱的方式呈现,如表3所示。

表3 语义特征抽取分析方法对比

技术树是指用于表示某一技术领域中技术特征及其关系的树形结构图,包含技术、功能、产品等要素,可以辅助决策者梳理技术体系,把握技术架构和创新主体在技术发展过程中的位置,选择相匹配的合作目标。例如,翟东升等[20]对专利文献的标题、摘要进行切分和标注,抽取功能、功能效果、科学效应等语义特征,通过合并同义概念确定树的基础模块,通过语义特征的共现关系实现概念之间的联接,构建技术树,与企业提供的结构化需求文档进行匹配,筛选能够满足企业需求的专利权人。伊惠芳等[21]爬取公开信息中的需求文档,并将技术需求划分为广泛、单一、综合性3类,采用百度语义工具和Python语言技术从技术需求文档和高校专利文献中抽取技术领域、功能、功效和技术方案,通过LDA模型聚类,实现各项语义特征之间的联接,建立高校专利技术树,与不同类型的技术需求进行模糊、特定、多目标匹配,再根据需求的满足程度、技术的有用性确定高校专利转移目标。

知识图谱可以完整规范地描述实体及其属性之间的关系,帮助实现实体关联和语义推理,有利于理解技术主体之间的关联关系。例如,李家全等[22]利用新能源汽车领域的术语层次关系构建了知识图谱,根据两个术语的类型、出现频次以及在知识图谱中的层次深度计算实体概念相似度,根据两个术语的类型、最短距离计算实体距离相似度,利用Word2Vec、Bert模型计算实体语义相似度,利用TextRank提取术语属性句子中的关键词计算实体属性相似度,对上述指标进行综合赋权得到实体相似度,可用于识别相似实体。Deng W等[23]绘制专利、企业、行业的知识图谱,将从专利标题和摘要中提取的关键词及其共现关系作为图的边权重,再通过融合共同节点、边权重、总权重的图编辑距离度量不同图的相似性,为企业匹配相似策略、互补策略、混合策略下的专利转让目标,该方法已成功应用于江西省技术交易平台。

抽取语义特征并进行匹配分析的方法可以更精准地捕获文本的语义信息,展示技术结构关系,匹配合作需求。但其局限性在于:①技术树或知识图谱的构建过程复杂,人工成本较高,不适合应用于大规模数据集;②通常需要人工标注,标注的准确性与统一性有待考量;③方法不具有通用性,难以重复。

2.4 基于技术应用关系的识别方法

基于技术应用关系的识别方法是指从是否用于解决同一问题的角度分析技术的竞合性质,据此识别竞争对手或合作伙伴。竞争性技术是指可用于解决同一问题的技术,具有相似性和取代性,如通信领域的3G与5G技术、低碳领域的蓝氢与绿氢技术;合作性技术是指可通过组合用于解决同一问题的技术,具有互补性和协同性,如汽车领域的车窗制造与车门制造技术、3D打印领域的打印机喷头与打印材料。目前,相似性技术的识别方法更加成熟,语义相似性分析可以细粒度地从文本语义的层面揭示技术的相似性,在潜在合作识别领域应用较为广泛,主要包括文本聚类分析、依存句法分析、基于预测的词嵌入分析等,如表4所示。

表4 语义相似性分析方法对比

文本聚类分析是指通过聚类算法从同一类簇中识别潜在合作,主题模型是一种典型的聚类方法,先从技术文本中识别技术主题,再根据相似主题识别合作潜力大的创新主体。例如,Kang J等[24]运用LDA模型识别特定领域的子技术主题,再通过K-means聚类算法确定子技术集群,从子技术集群中根据相似专利密度确定技术转移伙伴,考虑了企业的多元化研发方向。类似地,崔晶等[25]利用关联规则分析目标企业的技术同心多元化领域,再通过LDA模型将创新主体划分到不同的技术主题,根据专业能力和合作能力为企业推荐不同技术主题的研发合作伙伴。周洪等[26]采用t-SNE主题模型对专利中的新颖性和用途部分聚类,建立基于技术—应用主题的二维分析框架,结合目标企业的技术布局,与其他创新主体的技术相似性、应用相似性识别潜在竞争对手。Qi Y等[27]利用LDA模型识别论文与专利的主题,基于论文与专利的主题相似度确定可以合作的技术主题,根据创新能力与开放程度对相关主体进行排序,确定是否有合作的潜力,再建立这些主体基于主题的合作网络,进行链路预测,识别潜在合作机构与合作方向。武川等[28]通过LDA-Gibbs Sampling模型识别专利文本的主题,建立专利权人合作网络和主题相似网络,认为网络的平均加权度越高,专利主题相似性越高,合作潜力越大。

依存句法分析是指通过提取分析主谓宾等语义要素及其关联关系识别潜在合作。例如,汪雪锋等[29]通过SAO方法识别染敏太阳能电池领域的研发合作组对,通过Stanford Parser软件提取专利文本的SAO结构,筛选、归类后绘制基于时间序列的“材料—技术与组件—目标”SAO结构图,挖掘具有相似研发目标的机构。Li R等[30]抽取专利标题和摘要中的SAO语义结构,利用专业医学术语系统识别与目标技术相关的SAO语义结构,判断SAO语义结构之间的相似性,评价专利权人的技术相似性,再通过TF-IDF获取关键词重要性作为SAO语义结构的特征权重,构建专利权人向量,评价专利权人的技术互补性,为识别R&D合作提供更精准的参考。Li X等[31]运用SAO语义结构分析抽取论文中的技术问题和专利中的解决方案,计算相似度,进行聚类,分析每个聚类主题下问题与方案的差异,并将论文中检测出的离群点纳入技术机会的识别范围,再结合专家知识确定合作技术机会。

词嵌入是将词语映射为向量的自然语言处理技术,基于预测的嵌入可以较好地解决数据稀疏、词表膨胀等问题,分辨语义细节,极大地优化了文本表示效果,如Word2Vec、Doc2Vec等,在衡量技术相似性方面得到广泛应用。例如,向姝璇等[32]以Jaccard算法计算IPC组合相似度定义功能相似性、以Doc2Vec计算独立权利要求相似度定义技术相似性,构建基于功能—技术的专利整体相似网络,分析主题簇下的竞争组合。Lee C等[33]基于美国专利商标局数据库提取3D打印领域专利与产品的对应关系,运用Word2Vec识别具有相似技术的产品,识别目标产品的技术机会,再从技术、企业维度对其价值进行评价,为识别潜在技术机会和合作伙伴提供参考。李冰等[34]建立企业引用专利的二分网络,采用Sim Rank算法预测潜在竞合对象、Text2Vec算法对其专利进行向量化表示,计算专利相似度,衡量技术的差异性,确定竞合目标。基于预测的嵌入可以很好地表示词向量、句子向量,但对整篇文档向量的表示通常采用加权平均的方式获取,比较粗糙。以2018年Google AI研究所提出的BERT模型为标志,基于预训练的嵌入开始受到关注,一些改进的模型如ALBERT、RoBERTa等也取得了比较好的效果,但这类模型在技术关联关系分析和潜在合作识别领域还未得到广泛应用。

语义相似性分析方法可以对大规模文本进行处理,深入分析文本语义特征,判断创新主体之间的技术关系,匹配特定需求,提高识别结果的可靠性。但其局限性在于:①聚类分析易生成高维稀疏向量,需要进行降维处理;②依存句法分析需要高质量的人工标注,成本较高,不太适用于大规模数据;③词嵌入分析对整篇文档以及机构之间多篇文档语义特征的处理方式较为粗糙,有待完善;④大多数研究认为,相似即具有合作潜力,但相似性技术更趋于竞争性质,忽略了企业研发合作的内在动因。

相较来看,互补性技术的识别难度更大,如表5所示,主要基于分类号[35]、技术空白点[36]、产业链或创新链分析[37-38]以及指标评价[39]方法确定,也有研究深入文本语义层面尝试测算企业之间的技术互补性,例如,Wang X等[40]采用HLDA模型识别3D打印领域的技术主题,建立主题层次树,发现主题之间的关联关系,再通过企业之间的主题补集数量衡量技术互补性。技术互补性的量化方法亟待完善。

表5 技术互补性分析方法对比

识别互补型合作伙伴可以为企业填补技术空白,寻找技术机会提供参考,往往比相似型合作伙伴更能产生重大创新。现有研究的局限性在于:①大多数研究认为“空白”即互补,可以进行研发合作,较少对双方技术的用途进行细致区分,结果的可靠性有待考量;②定量方法主要基于专利类别实现,未深入技术文本语义层面;③技术互补性的判断仍以定性方法为主,实施过程复杂且受主观影响较大。

2.5 基于复合技术关系的识别方法

为了弥补基于单一关系的识别方法的不足,优化识别效果,已有研究综合利用多种技术关系分析技术关联情况,识别潜在研发合作,如表6所示。例如,傅俊英等[41]构建基于专利共引、共被引关系和文本相似关系3种元路径和包括专利权人、发明人、IPC分类号、专利所属国家等信息的异构网络,运用PathSelClus算法进行聚类,认为同一聚簇中的机构与聚类种子存在技术相似性,识别中小企业的潜在合作伙伴。吴菲菲等[42]从网络信息获取领域市场需求,采用LDA模型识别需求主题,再结合领域专利和目标企业专利确定目标企业的研发需求,查阅科技文献获取解决方案,进行检索,得到与目标企业产业类别不同的候选合作伙伴,从技术能力、合作能力、市场能力3个方面进行评价,确定最佳合作伙伴。刘小玲等[43]分别构建专利共同分类强度向量、共同引文强度向量、专利标题和摘要文本向量,各向量首尾相连,进而得到多属性融合的专利相似度,优于仅考虑单个属性的结果,可以为判断技术相似度提供参考。

表6 多方法综合分析对比

利用复杂网络可以将引用、共现、语义等复杂关系刻画为拓扑结构,形成异构网络、加权网络、有向网络、多分网络、多层网络,结合使用链路预测、深度学习等技术,利用网络性质和多类节点的属性、关系识别潜在合作。例如,Wang Q等[44]建立融合专利交易关系、发明关系、引用关系以及本体、文本信息的异构网络,运用基于元路径的相似性测量方法AvgSim识别专利转让目标。何喜军等[45]从专利和组织维度建立影响专利交易的属性指标体系,构建属性异构网络,设计AHNRL-PTR模型进行表示学习,可以为节点推荐具有相似属性的专利交易目标。此类方法在研发合作领域应用较少,可能与技术创新主体具有很强的竞争性、合作网络稀疏、有用信息较少、识别结果可用性较差有关。在科研合作领域应用较多,包括融合节点的共同邻居、研究内容、研究兴趣、多模体[46-49]等特征,或在超网络的基础上改进传统的资源分配指标[50],识别潜在科研合作关系。

复合型方法能够集成多种方法的优势,充分挖掘引用关系、共现关系、文本语义、复杂网络中蕴含的有用信息,综合统计特征和语义特征识别潜在合作伙伴,效果更好,但此类方法实施过程较为复杂,融合多维属性的难度较大,成熟的实施流程仍有待探索。

3 当前研究存在的主要问题

通过对现有方法的比较,发现每种方法各有优劣,如表7所示,总结当前研究存在的主要问题如下:

表7 基于技术关联关系的企业研发潜在合作识别方法对比

1)数据源和数据范围较为受限。除专利文献以外,产品、商标、标准等文献以及一些网络资源也是技术信息的重要载体,现有研究大多以专利文献为数据源进行技术关联分析,缺乏对其他类型文献的考虑,能够利用的属性信息有限。另外,基于合作历史筛选出的候选合作伙伴,本质上没有从技术关联视角考虑机构之间的合作潜力,已经将一些可能的潜在伙伴剔除在外,无法发现新增主体和已有链路之外的潜在合作关系,影响识别效果。

2)技术文本的语义分析方法存在较多缺陷。现有研究通过文本聚类、依存句法分析、知识图谱等方法实现了对大规模技术文本的语义挖掘,相比基于分类号的方法蕴含了更丰富的语义信息,优化了识别效果。但在技术关联分析领域所用到的语义分析方法仍有很多弊端,例如,基于主题词的方法易生成高维稀疏向量,无法较好地识别细分类目;基于语义特征抽取的方法需要统一的、高质量的人工标注,成本较高;Word2Vec、Doc2Vec等神经网络方法受不同语境的影响较大,仍未能较好地解决多义性问题。机构层多篇技术文本的语义相似性分析方法仍采用单篇文本相似度加权平均的方式,较为粗糙,容易模糊机构之间的技术关联特征。技术互补性的测算方法仍以定性判读为主,缺乏成熟的量化方法,区分互补方向也是一大难点。

3)技术关联与合作行为的关系尚未梳理清晰。技术关联是企业进行研发合作的基础,已存在研发合作关系的主体必定存在着某种技术关联,现有研究通过获取技术相似度、合作偏好等参数对潜在合作进行定量推断,取得了较好效果。但缺乏对技术关联与合作行为关系的系统分析,例如,共现关系具体反映何种技术关联,拥有何种共现关系的机构合作潜力大;引用关系受引用动机影响,何种引用特征可以反映机构的合作潜力;技术相似可能会使双方倾向于竞争而非合作;同一产业链的机构不一定合作,反而会在其他产业链寻求伙伴等。技术关联与合作行为的关系不清晰,直接影响到合作潜力测度指标的合理性以及识别结果的准确性和可用性。

4 未来研究方向

针对上述问题,提出基于技术关联关系的企业研发潜在合作识别方法领域的未来研究方向如下:

1)纳入多源数据并保障识别范围的完整性。利用专利、产品、商标、标准等多种文献蕴含的技术信息以及企业等机构网站/专业数据库的市场经营信息[51],获取丰富的属性参数,有利于全面客观地判断技术关联关系和研发合作潜力。以产品为例,产品名称或功能的高相似性往往被用于识别竞争对手,而低相似性不被重视,不以相似度的高低简单判定竞合关系,而应该对相似性进行分层、分级、分情况的讨论,面向不同用途的高相似性和面向同一用途的低相似性是有合作可能的。同时,不应该囿于机构之间的合作历史,而是优先考虑技术关联关系,判断双方进行研发合作的技术匹配程度,例如对方技术与企业现有技术资源加以组合是否有利于提高企业技术创新能力,在此基础上再考虑合作历史等因素,判断合作潜力,提高识别结果的科学性。

2)完善技术文本语义分析与计算的理论方法体系。技术文本语义分析直接影响技术关联判断结果的准确性,现有知识组织方式不断朝着结构化、标准化的方向发展,为文本挖掘提供了较好的基础,但仍面临词语歧义、情感倾向、复杂语境等问题,应模拟现实世界的语义分析环境与习惯,系统性地完善语义分析、计算、推理、应用方面的理论与方法体系,利用复杂网络、深度学习、知识图谱、人工智能等技术从大规模数据中自动化、智能化地学习有效特征,优化文本特征表示效果;在机构技术文本语义分析方面,可以采用将多个机构多篇文档的相似度进行分类来代替多个机构多篇文档的相似度直接加权平均的方式,既可以利用现有机器学习多分类的成熟方法,也可以更大程度地保留机构技术文本语义的特征,提供有价值的、可解释的分析结果。在技术互补性的测算方面,考虑互补的出发点是基于双方技术结构还是技术用途,明确判断标准和测度指标,借鉴技术相似性的测算方法,深入文本语义层面加以挖掘,同时可以考虑利用复杂网络等工具展示互补方向。

3)系统梳理技术关联与研发合作行为的关系,完善测度指标。研发合作是一种复杂的选择行为,本质上要以研发技术的匹配程度作为选择合作伙伴的出发点,应系统梳理各类技术关联关系与研发合作行为的关系,完善测度合作潜力的指标和方法,提升识别结果的客观性和可靠性。以技术应用关系为例,当双方技术强相似、弱互补时,表明双方很可能在研发相似技术或产品,竞争激烈,但在细分领域上也可以尝试合作;当双方技术弱相似、强互补时,表明此类机构可能正好拥有企业没有且需要的技术,未来可能助力企业形成重大技术创新或革命性产品;当双方强相似、强互补时,表明此类机构可能会帮助企业解决现有研发过程遇到的技术瓶颈,优化企业技术或产品性能,也对激发双方在共同领域的潜能,实现双赢有促进作用;当双方弱相似、弱互补时,企业可考虑将此类机构作为未来技术扩张的备选目标,以提升技术或产品多样性。厘清技术关联关系与研发合作之间的组合方式,才能建立起科学的识别依据和识别指标。

猜你喜欢

相似性关联语义
一类上三角算子矩阵的相似性与酉相似性
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
浅析当代中西方绘画的相似性
语言与语义
“一带一路”递进,关联民生更紧
奇趣搭配
智趣
低渗透黏土中氯离子弥散作用离心模拟相似性
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊