基于压缩域特征的多媒体数字音频检索方法

2022-10-23刘彦

信息记录材料 2022年8期

刘彦

（青岛市技师学院山东青岛 266229）

0 引言

随着社会的信息技术水平的不断发展，多媒体网络已成为人们工作和生活的必需品[1]。音频技术是多媒体数据处理中的重要组成部分，且形式复杂样[2]。由于音频数据的多样化，对其进行检索分析较为困难，如何准确对多媒体数字音频进行检索和分析，成为当前社会热门话题之一[3]。

传统的音频检索是通过人工将音频数据上传到数据库，通过人工标注音频数据，这样的方法大大增加了时间成本[4]。同时通过人工进行标注的方法，无法将音频数据准确且全面标注，进行检索时，不能准确将所需音频数据分析识别[5]。因此本文提出基于压缩域特征的多媒体数字音频检索方法。以压缩域特征为基础对数字音频进行特征识别和分析，提高在多媒体数字音频检索过程中的准确率。

1 基于压缩域特征的多媒体数字音频检索

1.1 多媒体数字音频特征提取

对多媒体数字音频进行检索时，其过程主要分为音频特征提取、音频分割和分类、音频检索这三个主要的部分，即原始音频需经过细致的处理，以最后实现检索的目的，如图1所示。

对于每一帧，每个子带矢量值的均方根为：

S为32维的子带矢量，M为一个32维的矢量[6]。M表征这一帧的特性，则质心的具体特征为：

质心反映在压缩域上音频信号的基本频率带[7]。通过矢量平衡点，获取衰减截止频率：

其中，R为音频信号能量衰减3分贝时的截止频率。格邻两帧的M矢量正规化后以2为模的差分，频谱流量体现音频信号的动态特征。由均方根[8]衡量这一帧音频信号强度：

通过对多媒体数字音频的均方根计算，一共提取出11种不同的音频特征，然后再将这些不同种类的音频特征进行融合，这样能够很好地将音频信息中的静态特征和动态特征表现出来，将音频信息具象化，以此为音频的识别和检索提供了必要的基础。

1.2 多媒体数字音频压缩域特征融合

1.2.1 建立模糊集合

模糊数据集合以自然语言为主，通过建立多媒体数字音频模糊集合来确定清晰集合中所含有的元素[9]。这种集合中的元素是确定的，且数量是不变化的。确定好清晰数据集合中的元素后，再利用排除法，将模糊数据集合中的元素进行标注，二者的数据集合元素不存在交集情况。

对于多媒体数字音频来说，建立真实可靠的模糊逻辑是十分重要的。相比较普通的模糊数据逻辑，多媒体数字音频模糊数据逻辑定义更加广泛。分为真逻辑和假逻辑，在此将真逻辑标注为“1”，将假逻辑标注为“0”进行区分。在多媒体数字音频模糊数据逻辑中，所有的数据均会存在真假逻辑，取值可以在“0”到“1”间的任意一个数字。通过关于数字的对比，能够确定数据中的真逻辑和假逻辑的比值情况。模糊逻辑的主要作用是反应反映多媒体数字音频数据中所含有的不确定因素以及发生的随机性。通过对不确定因素以及发生的随机性进行整理，能够大大提高对于多媒体数字音频的识别和检索的准确性以及效率。

1.2.2 模糊集合的度量

若集合A的论域为U，x为A中的元素，x属于A的程度由隶属度函数映射为0与l之间的某一隶属度μA(x)表示，则模糊集A为：

式中x为模糊集合所对应的论域中元素；μA(x1)为相应的隶属度。

数值种类不一样的隶属度之间，它们的差异可以按照模糊集合的极值中的不稳定值和以模糊度为基础而进行建立的数据。所以，不同的模糊数据中的隶属度，能够通过数据样本的不确定性和模糊程度进行相关定义。

1.2.3 隶属度的赋值

隶属度函数是模糊理论中不可或缺的一部分[10]。在对一个数据样本进行模糊处理时，它的基础是确认这个数据样本的隶属度函数。文将对多媒体数字音频数据中所提取出来的压缩域特征进行分类操作，按照模糊程度划分为三个不同的模糊基础数据集合，并且按照数据的大小类类为L、M、S三个等级。如图2所示，为三种分类的隶属度函数。

对熵进行最精确分类操作的主要部分是对已经确定好分类的数据库进行集中分析。通过概率分布可以看出熵存在不确定性，其不确定值为3。对于多媒体数字音频信息的测量，需要将数据进行分类讨论，并且确定数据信息的不确定值以及数据样本的最大容量。对样本进行多次测量迭代，以此测试出最佳的分类结果。集合的熵是用率和以及所有结果概率的对数来定义的。归纳法中的第三个定律表明一个规则的熵需最小化。最小的熵（S）与所有的尽可能接近1或0的pi相关联，用熵的最小化分析方法来建立模糊阈值，从而确定隶属度函数，计算出模糊域值，即隶属度函数图中的a，b，c三个值，从而确定隶属度函数，完成多媒体数字音频压缩域特征数据融合。

隶属度函数是以分解和分类筛选为主要基础的方法，通过在两种音频数据中间分割出一条阈值线进行分类。这样能够划分出最佳的样本分类，以此为后续的识别检索提供方便。

1.3 基于压缩域特征的多媒体数字音频检索

以压缩域特征为基础，用偏斜度对融合特征分类，引用三角模糊集算法得到辨别函数，对音频进行有效检索。这种多媒体数字音频检索是使用用户与多媒体数据库之间的一种信息交互活动。

用近似度表达音频资源间的一致性，偏斜度可靠度矩阵表达式为：

其中，ri表示音频检索偏斜度；i表示音乐类别的数量；t表示多媒体数字音频检索时间。音频检索偏斜度的可靠度矩阵存在时间与空间两个维度信息的可靠性，在t时域内检索压缩域特征音频的偏斜度为：

公式（7）得到偏斜度，用这个结果对压缩域特征进行分类，得到较可靠的音频信息。设音频特征样本为(x,y)，音频信息库的隐层数为L，引用偏斜度计算，得到第l个输出为：

其中，Gu表示音频压缩域最大特征值，通过辨别函数对音频信息进行定位，实现音频资源分布式检索：

通过公式（9）的分布式计算分析，可以有效检索音频压缩域特征，以此提升音频相识度，为用户提供音频相似性判断，优化多媒体数字音频。

2 实验论证分析

为了验证本文所设计的基于压缩域特征的多媒体数字音频检索方法是否能够有效的识别数字音频，于是设计对比实验。实验样本随机选取新闻报道、音乐和其他音频文件，并且所采样的音频频率均为20 500 Hz。

在对音频进行特征提取以及分割融合时，采集三种种类不同的音频样本进行实验分析。三种样本分别为：第一种，30个时长为20秒的纯音乐片段；第二种，30个时长为20秒的人声唱歌片段；第三种，30个时长为30秒的纯人声新闻播报片段。选定的实验样本一共为30个，将每个样本随机截取10秒作为实验基础，每组实验由以上三种实验样本组成，每组样本组成为随机。

首先将样本数据进行分割操作，将分割完的音频数据进行先粗分类，一共采集到70个音频样本片段，片段种类为纯音乐片段、人声唱歌片段、纯人声新闻播报段歌各20个。对以上实验样本进行音频特征提取，将提取因为音频数据记录到音频特征数据库中。随机挑选一个实验样本以外的音频对数据库中的音频进行对比和检索。音频片段识别结果如表1所示。

表1 音频片段识别结果

由表1可以看出，本文所设计的基于压缩域特征的多媒体数字音频检索方法能够有效提取到音频的特征，将数字音频进行有效分类，大大提高了音频识别的准确率。

在音频片段识别准确率较高的基础上，对多媒体数字音频检索时间进行测试。测试结果如图3所示。

由图3得出，当信息量达到300 bit，本文方法耗时6.5 s，张桦等[4]方法耗时9.2 s，买尔丹·祖农[5]方法耗时8.9 s，由此结果可以看出，本文方法具有较高的音频资源检索效率，有更广的应用前景。

3 结语

本文设计了以压缩域特征为基础的多媒体数字音频检索方法。首先对多媒体数字音频进行特征提取和分割，然后基于压缩域特征对多媒体数字音频的特征进行分析与融合，最后进行识别。本文方法大大提高了对于数字音频的识别，有效增加了多媒体数字音频的检索效率。但由于时间限制，没有进行多次实验，还需在今后的研究中不断完善。