CN116304745A

CN116304745A - 基于深层次语义信息的文本话题匹配方法及系统

Info

Publication number: CN116304745A
Application number: CN202310324759.4A
Authority: CN
Inventors: 纪科; 张秀; 杨波; 陈贞翔; 马坤; 孙润元
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-06-23
Anticipated expiration: 2043-03-27
Also published as: CN116304745B

Abstract

本发明公开了基于深层次语义信息的文本话题匹配方法及系统，属于文本匹配技术领域。本发明通过命名实体识别模型对文本进行实体提取，而后通过特征工程将实体进行筛选，得到文本的关键实体；通过BART模型进行文本摘要，得到文本的主要信息；最后将文本摘要和关键实体进行特征融合，获取深层次语义信息特征向量，将深层次语义信息和目标新闻文本输入预设的文本话题匹配模型，获取文本话题匹配结果。提升了文本话题匹配准确性，解决了现有技术中存在“与文本主旨无关的外部知识极易误导对当前话题的判断，易丢失文本关键信息，导致长文本匹配效果差”的问题。

Description

基于深层次语义信息的文本话题匹配方法及系统

技术领域

本发明涉及文本匹配技术领域，特别是涉及基于深层次语义信息的文本话题匹配方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

随着现代科技的不断发展，人们的生活与互联网息息相关。文本语义匹配是很多自然语言处理任务的基础，在很多场景中都需要文本语义匹配技术，例如信息检索。不同的软件有不同的需求，所以对于语义匹配方面有着不同的尺度要求，普通的文本匹配无法适用所有的产品，所以话题匹配就尤为重要。

针对文本的话题检测目前处于一个尚未完善的阶段，仅依靠人工检测难以处理其巨大的工作量。因此，通过算法模型实现文本话题的自动匹配成为当下热点研究问题。长短不同文本的话题匹配被视为文本匹配问题，即通过对文本的语义信息进行表征，来判断文本的相似性。文本匹配算法经历了从浅层统计学习模型到深层深度学习模型的过渡。近年来，研究人员通过表示和交互两种方式，采用LSTM、ESIM、BERT等模型，对文本匹配任务进行建模，提高了文本匹配性能和速度。与基于统计学习的浅层学习方式相比，深度学习具有较好的学习能力，且避免了人工设计规则和功能，可以直接从输入中学习特征表示。

日常生活中，人们每天都会浏览新闻，每个新闻都有各自的话题，以及具体的描述，用户检索新闻时，识别出具体话题而后进行检索，对相似的文本进行排序，会使得检索的准确率大大提升，对用户的使用起到了极大的便利。

然而神经网络模型在文本匹配中达到了更好的效果，但其缺点依然不可忽视。深度学习的文本匹配模型朝着文本字句的精细化匹配方向发展，对于句子语义过分深究，对于相对具体的话题匹配效果差；文本中大量与新闻话题表达无关的信息增加了数据噪声，与文本主旨无关的外部知识极易误导对当前话题的判断，可能对文本的话题匹配结果造成影响；由于BERT等预训练语言模型的使用，对于长文本通常采取截断前512字的操作，易丢失文本关键信息，导致长文本匹配效果差。

发明内容

为了解决现有技术的不足，本发明提供了基于深层次语义信息的文本话题匹配方法、系统、电子设备及计算机可读存储介质，通过命名实体识别模型对文本进行实体提取，然后通过特征工程将实体进行筛选，得到文本的关键实体；通过BART模型进行文本摘要，得到文本的主要信息；最后将文本摘要和关键实体进行特征融合，获取深层次语义信息特征向量，将深层次语义信息和目标新闻文本输入预设的文本话题匹配模型，获取文本话题匹配结果；在保证准确率的前提下，快速、高效的进行文本话题匹配。

第一方面，本发明提供了基于深层次语义信息的文本话题匹配方法；

基于深层次语义信息的文本话题匹配方法，包括：

获取目标新闻文本，将目标新闻文本输入预设的命名实体识别模型进行处理，获取目标新闻文本的实体；

通过特征工程对实体进行筛选，获取关键实体；

将目标新闻文本输入预设的预训练语言模型进行处理，获取文本摘要；

将文本摘要和关键实体进行特征融合，获取深层次语义信息特征向量，将深层次语义信息和目标新闻文本输入预设的文本话题匹配模型，获取文本话题匹配结果。

进一步的，所述将目标新闻文本输入预设的命名实体识别模型进行处理，获取目标新闻文本的实体包括：

对目标新闻文本进行向量化处理，获取目标新闻文本中每个字的初始表示向量；

对初始表示向量进行特征提取，获取目标新闻文本中每个句子的特征向量；

构造信息矩阵，基于信息矩阵对特征向量进行卷积编码，获取不同的网格表征；

通过预测器对网格表征预测词对关系，获取目标新闻文本的实体。

优选的，所述信息矩阵包括距离信息矩阵、词对信息矩阵和区域信息矩阵，所述距离信息矩阵用于表示词对中每个字之间的距离，所述词对矩阵用于表示经范数层输出的词对，所述区域矩阵用于表示词对的所在区域。

进一步的，所述通过特征工程对实体进行筛选，获取关键实体包括：

根据实体，获取每个实体的第一权重；计算每个实体的词频，根据词频，获取每个实体的第二权重；筛选实体中的不合群词，获取每个实体的第三权重；计算目标新闻文本中句子和各实体的相似性，获取每个实体的第四权重；

根据第一权重、第二权重、第三权重和第四权重，获取每个实体的组合特征权重，根据组合特征权重对实体进行排序，获取关键实体。

进一步的，所述预训练语言模型为BART模型。

进一步的，所述将文本摘要和关键实体进行特征融合，获取深层次语义信息特征向量，将深层次语义信息特征向量和目标新闻文本输入预设的文本话题匹配模型，获取文本话题匹配结果包括：

通过LSTM网络，将文本摘要和关键实体进行特征融合，获取深层次语义信息特征向量；

根据深层次语义信息特征向量，获取深层次语义信息拼接向量；

根据目标新闻文本，获取文本拼接向量；

将深层次语义信息拼接向量和文本拼接向量拼接，获取拼接向量；

将拼接向量输入softmax层进行处理，获取文本话题匹配结果。

优选的，所述根据深层次语义信息特征向量，获取深层次语义信息拼接向量，包括：

对深层次语义信息特征向量进行按位相减操作并取绝对值，获取深层次语义信息特征向量之间的差异，并将深层次语义信息特征向量和深层次语义信息特征向量之间的差异拼接，获取深层次语义信息拼接向量。

第二方面，本发明提供了基于深层次语义信息的文本话题匹配系统；

基于深层次语义信息的文本话题匹配系统，包括：

关键实体获取模块，被配置为：获取目标新闻文本，将目标新闻文本输入预设的命名实体识别模型进行处理，获取目标新闻文本的实体；通过特征工程对实体进行筛选，获取关键实体；

文本摘要获取模块，被配置为：将目标新闻文本输入预设的预训练语言模型进行处理，获取文本摘要；

文本话题匹配模块，被配置为：将文本摘要和关键实体进行特征融合，获取深层次语义信息特征向量，将深层次语义信息和目标新闻文本输入预设的文本话题匹配模型，获取文本话题匹配结果。

第三方面，本发明提供了一种电子设备；

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述基于深层次语义信息的文本话题匹配方法的步骤。

第四方面，本发明提供了一种计算机可读存储介质；

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述基于深层次语义信息的文本话题匹配方法的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明提供的技术方案，针对文本话题匹配效果差的问题，该方法通过对文本主要内容进行摘要，文本主要描述对象即关键实体进行抽取，来深层次挖掘文本语义信息，不仅可以处理短文本之间的匹配，也可以处理长文本之间的匹配，甚至长短不同的文本之间也可以进行话题匹配检测，提升文本话题匹配效果。

2、本发明提供的技术方案，基于命名实体识别技术，通过特征工程，对提取出来的实体进一步筛选，找到更符合文本描述的关键实体，有效地将主要描述的对象与无关内容区分，从而提高了模型对于话题的概括能力。

3、本发明提供的技术方案，基于文本摘要技术，抽取、总结、精炼其中的要点信息，并且能够有效缩短文本的长度，由于预训练语言模型BERT只能截取前512字的文本内容，采取文本摘要技术能够将文本主要信息概括，而后进行编码，提升匹配精度，解决长文本之间、长短不同文本之间话题匹配效果差的问题。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例提供的基于深层次语义信息的文本话题匹配方法的流程示意图；

图2为本发明实施例提供的整体网络架构示意图；

图3为本发明实施例提供的命名实体识别模型的网络架构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

术语解释：

文本匹配：描述两段文本之间的关系，是否指向同一语义；

文本话题匹配：两段文本描述的主要话题，是否一致；

命名实体：文本中具有特定意义或者指代性强的实体，通常包括人名、地名、机构名、日期时间、专有名词；

命名实体识别：识别出文本中的命名实体。

实施例一

现有技术中的神经网络模型对于文本话题匹配的效果差，易被干扰因素影响，易丢失文本关键信息，误导对话题的判断；因此，本发明提供了基于深层次语义信息的文本话题匹配方法。

接下来，结合图1-图3对本实施例公开的基于深层次语义信息的文本话题匹配方法进行详细说明，该基于深层次语义信息的文本话题匹配方法，包括如下步骤：

S1、获取目标新闻文本，将目标新闻文本输入预设的命名实体识别模型进行处理，获取目标新闻文本的实体。其中，命名实体模型为基于W2NER的命名实体模型，通过对表示向量的特征提取等操作，预测生成目标新闻的标签序列；对标签序列中的实体标签进行提取，得到目标新闻文本的实体。具体步骤包括：

S101、通过BERT模型对目标新闻文本进行向量化处理，得到目标新闻文本每个字的初始表示向量。

具体的，使用BERT预训练模型取得文本的表示向量。

将目标新闻文本拆分成以字(token)为单位的序列，每个token的输入向量由三部分组成：字向量(token embedding)、分句向量(segment embedding)和位置向量(positionembedding)。

token embedding将文本中的每个字转换成固定维度的向量。在BERT预训练模型中，每个字会被转换成为768维的向量表示。对于文本中的每一个token，在预先建立的索引字典中查找它的对应下标，在lookup table(查找表)中查找此下标所得向量即为该token的token embedding。

segment embedding用于区分一个句子对中的两个句子。在对token进行处理时，需要在句子开头添加[CLS]标识，在句子末尾添加[SEP]标识。且此嵌入层只有两种向量表示，即0和1：句子对中前一个句子的token都赋值0，后一个句子的token全部赋值1。如果输入只有一个句子，那么它的segment embedding全为0。

由于Transformer没有像RNN(循环神经网络)一样能够获取整个句子的序列能力，因此BERT模型对每个位置的字分别加一个position embedding以更好地理解序列顺序。

对于BERT预训练模型而言，其关键部分是基于自注意力机制的Transformer编码器。它主要通过句子中字与字之间的关联程度调整权重系数矩阵来获取字的表示向量，即：

其中，Q,K,V是字向量矩阵，d_k是embedding维度。多头注意力机制则是通过多个不同的线性变换对Q,K,V进行投影,最后将不同的Attention结果拼接起来，从而得到多个空间下的信息。

S102、通过双向LSTM神经网络对初始表示向量进行特征提取，获取目标新闻文本中每个句子的特征向量。

长短期记忆神经网络(long short term memory，LSTM)是循环神经网络(RNN)的一种。LSTM在隐藏层h中增加了3个门控(gates)结构，分别是遗忘门(forget gate)、输入门(input gate)、输出门(output gate)，同时新增了一个单元状态(cell state)。其中，单元状态用于信息存储；输入门表示当前时刻网络的输入有多少保存到单元状态；遗忘门要遗忘或丢弃一些信息，其任务就是接受一个长期记忆(上一个单元模块传过来的输出)并决定要保留和遗忘哪个部分；输出门要根据单元状态，确定输出值。LSTM是通过门控机制来选择性提取特征。

Bi-LSTM神经网络结构模型分为2个独立的LSTM，输入序列分别以正序和逆序输入至2个LSTM神经网络进行特征提取，将2个输出向量(即提取后的特征向量)进行拼接后形成的词向量作为该词的最终特征表达。Bi-LSTM的模型设计理念是使t时刻所获得特征数据同时拥有过去和将来之间的信息，得到上下文信息。

S103、构造信息矩阵，基于信息矩阵对特征向量进行卷积编码，获取不同的网格表征。

示例性的，通过CLN构造出三个距离信息矩阵(Distance Embedding)、词对信息矩阵(Word Embedding)、区域信息矩阵(Region Embedding)。其中，Distance Embedding表示的是word-pair中两个word的的距离，同时将此距离归到一个区间内；Word Embedding表示word-pair的embedding经过conditional layer-norm输出，为词对矩阵；RegionEmbedding表示word-pair所在区域是上三角还是下三角。

S104、叠加Distance Embedding、Word Embedding、Region Embedding三个embedding，进一步通过3个空洞卷积对网格表征进行进一步编码，得到不同的网格表征。

S105、通过预测器对网格表征预测词对关系，获取目标新闻文本的实体。

具体的，通过MLP预测器对网格表征预测词对关系。由于双仿射预测器(BiaffinePredictor)可以提升MLP预测器在关系分类上的性能，所以使用两个Predictor进行词对的关系分类，然后将MLP预测器和双仿射预测器输出的结果合并后作为最后输出结果。

其中，词对(x_i,y_i)之间的Biaffine分类器关系得分计算如下：

S_i ＝ MLP (h_i)

O_j ＝ MLP (h_j)

y_ij’＝S_i ^T U O_j+W[S_i；O_j]+b

MLP Predictor是对于卷积层得到的特征结果Q_ij，再使用一个MLP计算词对之间的关系得分

y_ij”＝MLP(Q_ij)

词对关系最终的概率得分：

Y_ij＝Softmax(y_ij’+y_ij”)

最终将Biaffine分类器和MLP分类器的结果合并，预测出实体边界。

S2、通过特征工程对实体进行筛选，获取关键实体。具体步骤包括：

S201、计算各个实体的词频-逆文档(Tf-Idf)权重，w₁＝TF(w)；

S202、计算各个实体的词频，赋予相应的权重，w₂＝0.1*n(n为出现的次数)；

S203、训练word2vec模型，通过model.wv.doesnt_match()找出不合群的实体，w₃(合群词)＝0.2，w₃(不合群词)＝0.1；

S204、通过word2vec模型编码句子和各实体，计算相似性，w₄＝cos(S,E)，其中，S为句向量，E为实体向量；

S205、计算各实体的组合特征权重，w＝w₁+w₂+w₃+w₄，对实体进行排序；若总实体个数小于3，则保留所有实体为关键实体；否则，取前3个为关键实体。

S3、将目标新闻文本输入预设的预训练语言模型进行处理，获取文本摘要；其中，预训练语言模型为BART模型。BART是一个预训练的seq2seq的去噪自编码(denoisingautoencoder)模型，BART以下方式进行训练：

(1)用任意的噪声函数(noising function)去破坏文本；

(2)学习一个模型来重建原始文本；通过BART的下游文本摘要任务对本文主要内容进行提取。

具体的，训练阶段，Encoder端使用双向模型编码被破坏的文本，然后Decoder采用自回归的方式计算出原始输入；微调阶段，Encoder和Decoder的输入都是未被破坏的文本，得到文本摘要。

S4、将文本摘要和关键实体进行特征融合，获取深层语义特征向量，将深层语义特征向量和目标新闻文本，输入预设的文本话题匹配模型，获取文本话题匹配结果。具体步骤包括：

S401、将目标新闻文本输入BERT模型进行处理，获取目标新闻文本的字向量；

S402、将通过BERT得到的句子中所有的字向量采取平均池化策略，进行求均值操作，最终将均值向量作为整句话的句向量，以此获取目标新闻文本的特征向量u、v；

S403、对目标新闻文本的特征向量进行按位相减操作并取绝对值，获取特征向量之间的差异|u-v|；

S404、将特征向量和特征向量之间的差异拼接，获取目标新闻文本的文本拼接向量u、v、|u-v|；

S405、将关键实体输入BERT预训练模型，得到关键实体的字向量；

S406、将关键实体的所有字向量采取平均池化策略，进行求均值操作，最终将均值向量作为待匹配语句的关键实体特征向量u₁、v₁；

S407、将文本摘要输入BERT预训模型，得到文本摘要的字向量；

S408、同样的，将文本摘要的所有字向量采取平均池化策略，进行求均值操作，最终将均值向量作为待匹配语句的文本摘要特征向量u₂、v₂；

S409、将每个句子的文本摘要向量和关键实体向量进行拼接，通过LSTM的门控结构，对特征进行提取，达到特征融合的效果，形成文本深层次语义信息的特征向量u’、v’(u’为待匹配第一个句子的深层次语义信息特征向量，v’为待匹配第二个句子的深层次语义信息特征向量)；

S410、将深层次语义信息特征向量做按位相减操作并取绝对值，得到待匹配关键实体的差异|u’-v’|；将深层次语义信息特征向量和深层次语义信息特征向量之间的差异拼接，获取深层次语义信息拼接向量u’，v’，|u’-v’|；

S411、将目标新闻文本的文本拼接向量和深层次语义信息拼接向量再次拼接，得到(u、v、|u-v|、u’、v’、|u’-v’|)；

S412、将拼接向量(u、v、|u-v|、u’、v’、|u’-v’|)通过全连接层进行降维，最后通过softmax层，得到0和1的概率大小(0不匹配，1匹配)，选取概率大的作为匹配的结果。

实施例二

本实施例公开了基于深层次语义信息的文本话题匹配系统，包括：

此处需要说明的是，上述关键实体获取模块、文本摘要获取模块和文本话题匹配模块对应于实施例一中的步骤，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

实施例三

本发明实施例三提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，计算机指令被处理器运行时，完成上述基于深层次语义信息的文本话题匹配方法的步骤。

实施例四

本发明实施例四提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述基于深层次语义信息的文本话题匹配方法的步骤。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深层次语义信息的文本话题匹配方法，其特征在于，包括：

通过特征工程对实体进行筛选，获取关键实体；

2.如权利要求1所述的基于深层次语义信息的文本话题匹配方法，其特征在于，所述将目标新闻文本输入预设的命名实体识别模型进行处理，获取目标新闻文本的实体包括：

3.如权利要求2所述的基于深层次语义信息的文本话题匹配方法，其特征在于，所述信息矩阵包括距离信息矩阵、词对信息矩阵和区域信息矩阵，所述距离信息矩阵用于表示词对中每个字之间的距离，所述词对矩阵用于表示经范数层输出的词对，所述区域矩阵用于表示词对的所在区域。

4.如权利要求1所述的基于深层次语义信息的文本话题匹配方法，其特征在于，所述通过特征工程对实体进行筛选，获取关键实体包括：

5.如权利要求1所述的基于深层次语义信息的文本话题匹配方法，其特征在于，所述预训练语言模型为BART模型。

6.如权利要求1所述的基于深层次语义信息的文本话题匹配方法，其特征在于，所述将文本摘要和关键实体进行特征融合，获取深层次语义信息特征向量，将深层次语义信息特征向量和目标新闻文本输入预设的文本话题匹配模型，获取文本话题匹配结果包括：

根据目标新闻文本，获取文本拼接向量；

将拼接向量输入softmax层进行处理，获取文本话题匹配结果。

7.如权利要求6所述的基于深层次语义信息的文本话题匹配方法，其特征在于，所述根据深层次语义信息特征向量，获取深层次语义信息拼接向量包括：

8.基于深层次语义信息的文本话题匹配系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的步骤。