【一等奖方案】工业知识图谱关系抽取-高端装备制造知识图谱自动化构建「龙盈战队」团队思路

WriteUp 10个月前 admin

590 0 0

【一等奖方案】工业知识图谱关系抽取-高端装备制造知识图谱自动化构建「龙盈战队」团队思路

2022 CCF BDCI

第十届CCF大数据与计算智能大赛

第十届CCF大数据与计算智能大赛（2022 CCF BDCI）已圆满结束，大赛官方竞赛平台DataFountain（简称DF平台）将陆续释出各赛题获奖队伍的方案思路，欢迎广大数据科学家交流讨论。

本方案为【工业知识图谱关系抽取-高端装备制造知识图谱自动化构建】赛题的一等奖获奖方案，赛题地址：https://www.datafountain.cn/competitions/584（戳底部“阅读原文”可直达）

获奖团队简介

团队名称：龙盈战队

团队成员：王彦博（导师），陈生（队长），闫括、关宇航、刘洁菲、单石磊

王彦博（导师），现任龙盈智达（北京）科技有限公司大数据事业部首席数据科学家。曾在英国曼彻斯特大学和剑桥大学担任博士后副研究员及访问学者；兼任中关村大数据产业联盟智库专家、腾讯云TVP最具价值专家、纽约金融学院特聘专家等职务。长期从事大数据、人工智能、区块链、量子科技和金融科技相关工作。曾多次获得国内外数据科学竞赛冠亚军。

陈生（队长），现任龙盈智达（北京）科技有限公司大数据事业部NLP&CV团队负责人，曾多次获得国内外数据科学竞赛冠亚军。

闫括（队员），现任龙盈智达大数据事业部NLP算法工程师。多次获得国内外数据科学竞赛奖项。

关宇航（队员），现任龙盈智达大数据事业部NLP算法工程师。多次获得国内外数据科学竞赛奖项。

刘洁菲（队员），现任龙盈智达大数据事业部NLP算法工程师。多次获得国内外数据科学竞赛奖项。

单石磊（队员），现任龙盈智达大数据事业部NLP算法工程师。多次获得国内外数据科学竞赛奖项。

所获奖项：一等奖

摘要

各种高端装备领域的故障案例文本是由业务专家或者专业维修人员撰写的描述相关设备异常、以及故障排查步骤的记录，该记录包括故障现象、故障原因、解决方法以及排故过程等，这些故障案例知识的利用受到数据结构化程度的影响，因而识别数据中的部件单元、性能表征、故障状态、故障检测工具等核心实体及其之间的组成关系至关重要。

给定任务：从故障案例文本中自动抽取4种类型的关系和4种类型的实体。关系类型为：部件单元的故障状态、性能表征的故障状态、性能表征的检测工具、部件单元之间的组成关系。

针对该任务，本文采用了两种联合抽取模型，并设定不同种子训练和做投票融合，第一种是基于表格填充的grte模型，第二种是基于GlobalPointer的token-pair识别模型GPLinker，我们使用DeBERTa、uer_large预训练模型进行迭代训练，得到高分模型，并使用模型融合及外部数据来重组文本，生成高质量伪标签。最终通过将伪标签加入训练、后处理去除关系冗余的方式提交结果，在A、B榜均位列第一。

关键词

DeBERTa，grte，GPLinker，伪标签，后处理

1 引言

命名实体识别和关系抽取是知识图谱构建中两项重要的基础任务，自动构建高端装备制造业故障知识图谱对于实现高端装备制造的智能化检修和诊断具有重大意义，为知识图谱构建、智能问答和语义搜索等下游任务提供基础支持。各种高端装备领域的故障案例文本是由业务专家或者专业维修人员撰写的描述相关设备异常、以及故障排查步骤的记录，该记录包括故障现象、故障原因、解决方法以及排故过程等，这些故障案例知识的利用受到数据结构化程度的影响，因而识别数据中的部件单元、性能表征、故障状态、故障检测工具等核心实体及其之间的组成关系至关重要。

关系抽取pipeline方法是将两个任务分离开来分别进行，先进行实体识别，再进行关系分类。这样存在的问题是会存在误差传播的情况。为了解决这个问题，目前各种基于端到端的joint方法正在兴起。

2 相关研究

实体关系抽取按模型结构分类，主要分为流水线（Pipeline）方法和联合抽取（Joint）方法。流水线方法即先从文本中抽取全部实体，然后针对全部可能的实体对判定其之间的关系类别。联合抽取方法通过实体识别和关系分类联合模型，直接得到存在关系的实体三元组。因在联合学习方法中建模的对象不同，联合学习方法又可以分为参数共享方法和联合解码方法，参数共享方法分别对实体和关系进行建模，而联合解码方法则是直接对实体-关系三元组进行建模。

根据抽取方式不同可分为：基于标注的方法，具有代表性的模型有CasRel、PRGC、BiRTE；基于片段的方法，主要有SpanRE、SpERT、PURE；基于填表的方法，包含TPlinker、GRTE、UNIRE等模型；基于阅读理解的方法，主要有Multi-turn QA等。

对于本次比赛任务， TPlinker、GPLinker、GRTE模型表现更为突出。TPLinker是一个联合抽取实体和重叠关系的单步模型，不存在任何相互依赖的步骤，因此避免了暴露偏差问题。它将联合抽取问题看做一个token对链接问题，并提出了一个握手标记方案在每种关系类别下对其实体对的tokens的边界标记。TPLinker解决了暴露偏差和误差传递的问题，同时理论上能够解决SEO、EPO、SOO等关系重叠问题。

GPLinker类似于TPlinker，基本方式都是multi-head思想，构造出token对矩阵。GPLinker是用GlobalPointer实现，其思想来源于Scaled Dot-Product Attention。相较于TPlinker，GPLinker标注区分实体类型，如下图所示；拥有更少的显存占用和更快的计算速度；同时，GPLinker用到多标签交叉熵，则不会存在不平衡问题，更容易训练。

图1：GPLinker标注矩阵

GRTE认为TPLinker这些现有方法在填充关系表时仅仅依赖于局部特征，局部特征要么从单一的token对或者从有限的token对的填充历史中提取得到，然而却忽略了两种有价值的全局特征，即token对和各类关系的全局关联关系，现有的模型不能对这两类全局特征进行学习建模。相比TPlinker，GRTE能够挖掘全局特征，对关系间和不同token对之间进行关联建模；另外，GRTE的填表策略减少了填表数目，减少了冗余的信息，相比其他模型训练收敛速度更快。

3 实验研究

首先考虑到存在大于512长度的训练和测试样例，我们通过标点符号将文本切割（grte最大长度200，GPLinker最大长度512），然后基于DeBERTa系列和uer_large预训练模型训练grte和GPLinker两种差异性模型结构，并在某些模型中加入负样本训练，通过投票融合得到a榜0.723的结果，接下来我们将预测结果中包含外部数据的样例取出，通过和外部数据的文本重组与假阳性样本关系剔除，得到300+伪标签样例。将伪标签样例加入训练集再次进行迭代得到best model后对测试集进行预测，并加入后处理解决了关系冗余的问题。图2为训练流程图。

图2: 训练流程图

3.1 预训练模型DeBERTa的独特性

通过对训练数据中实体进行分析，发现部件单元和检测工具这两类实体存在大量名称的缩写，包括EPC（灯的简称）、ABS（控制单元）、ATF（变速器）等，并且在模型识别这类实体过程中存在大量识别错误或者边界问题。我们使用bert4keras分词过程中，如果词库中不存在这类词，将默认会将该类文本识别为[UNK]送入bert中，将对模型识别产生一定困难，因此前期研究中我们统计这类词的频数并将其加入vocabulary中，然而可能是数据量较少的原因，lb分数并没有因此而获得提升。

我们在考虑是否有一种模型的vocabulary中包含这种类型实体的简称呢，或许大量该属性词向量的引入将有好的提升，答案是肯定的。我们选择了基于全词掩码的封神榜系列模型DeBERTa。

3.2 训练集与验证集强相关探究

比赛前期，我们使用baseline进行了参数调优及数据预处理的优化，本地cv分数五折平均0.71+，a榜分数只有0.704左右，我们进行数据探索，发现每折模型的收敛路线较为波折，并且在训练中期将达到f1的峰值，经过进一步探究，我们认为造成这一现象的主要原因是按照标点符号切割后的文本间存在比较强的相关性，然而baseline是将切割数据打乱后分折，这将造成cv分数的虚高和验证指标的误判。因此我们改为按样本id来分折，使同id的上下文落在相同的验证集或训练集中，经此改进五折平均cv 0.706，a榜分数0.714，有了明显提升。

既然切割后的文本上下文具有这种比较强的关联性，那么，在训练阶段引入上下文信息来作为增强信息而不参与损失计算是不是也能提高模型精度呢？然而由于baseline显存占用较大和资源的限制，我们将上下文信息拼接进当前信息流并不能有较好的实现，因此暂时放弃这一思路。

3.3外部数据与伪标签相关探究

3.3.1 外部数据存在问题

我们使用了ccl开源的相关外部数据集，数据已经开源且共享，虽然该数据集含有标签，然而我们认为该数据集存在以下两个问题无法直接加入训练。

1.该数据集文本长度相比此次比赛的数据较短，每条样本信息量很小。存在数据差异性。

2.如图2、3所示，数据集中存在较为严重的漏标情况，主要分为两类问题：SEO（一实体与多个实体有关系）关系中多实体未全部识别；头、尾实体均未识别的问题。

图3: 外部数据存在的SEO关系识别不全

图4: 外部数据存在的头尾实体漏标问题

3.3.2 外部数据探究

我们通过对外部数据分析发现每个样例均为长文本截取的片段样例，只包含部件故障和性能故障两个类别。其中有500+样例为a榜数据的截取样例，示例如图5所示，那么我们是不是能够拿取这部分高精确度的外部数据通过数据处理将a榜部分数据的伪标签质量提升一个档次呢？答案是肯定的，通过这种方式既保证了数据文本长度和训练集的一致性，也能纠正和提升伪标质量。

图5: 外部数据的片段级文本

3.3.3 伪标签构建

我们前期在不使用外部数据的条件下通过grte和GPLinker的融合得到了a榜0.723的结果，我们使用a榜预测数据筛选了一些高准确率的样本，然而可能由于样本召回量较低，使用伪标签进行模型的迭代并不能得到较高的收益。

根据上文一些分析我们知道，外部数据均为片段级的截取文本，因而如果通过数据处理的方式提升大量片段文本的标注质量，那么伪标签质量也将提升一个档次，经过我们对训练数据的探究，设定了四类规则来重构0.723模型的预测结果。

1.我们发现虽然训练数据中存在嵌套实体，但是同一种关系下，不存在两个相同类型实体的嵌套，因而我们通过将嵌套的假阳性关系剔除提升准确率，如图6所示。

图6: 假阳性样本剔除

2.如图3所示，针对外部数据存在的SEO关系识别不全的问题，我们使用模型的预测结果将其补全提升召回。

3.如图4所示，针对外部数据存在的头尾实体均漏标的问题，我们将其补齐，并且为防止假阳性关系渗入，需要设定规则来尽可能保证数据正确性。

4.如图7所示，预测结果中会存在被特殊符号（包括()和{}等）包裹的扩展类实体，然而这种实体在关系的标注中几乎是不存在的，因而我们无需将其保留。

图7: 头实体为扩展释意类实体

3.4滑动平均EMA

指数滑动平均EMA也叫权重移动平均（Weighted Moving Average）,是一种给予近期数据更高权重的平均方法。

我们对模型训练参数做略微的调整可引起a榜测试集分数较大的抖动，因此我们采用了滑动平均使得参数的更新更平滑，在测试数据上表现更鲁棒（robust）。由于训练样本较少，在训练起始加入EMA，总是让模型的收敛陷入异常（F1全0），因此我们在训练中期验证指标F1>=0.6的时期加入EMA，这样模型参数离最优点更近，收敛趋于平滑，并且在a榜测试集上也能提升5个千分点左右。

3.5 grte模型后处理

grte模型关系解码方式：将文本句子横纵排行，形成一个表格，用（wi,wj）代表第i行与第j列的token pair，且wi代表subject token，wj代表object token，则（wi,wj）对应单元格填充的标签集合为 {“N/A”, “MMH”, “MMT”, “MSH”, “MST”, “SMH”, “SMT”, “SS”}，如图8所示，标签中字母含义为：

第一个字母代表subject是多个token(M)，还是单个token(S); 第二个字母代表object是多个token(M)，还是单个token(S); 第三个字母代表token pair（wi,wj）同时是两个实体的开头(H)或结尾(T); 不存在上述关系的用N/A填充。

拿图6中关系(右后门把手, 间隙特别大)这个部件故障来说， token pair(右,间)是两实体的开头，两个实体又是多个token组成，则该token pair对应的label为MMH。数据集中每种关系r对应一个表格。

baseline的解码思路为前向解码，如图8所示，预测阶段需要先识别出标签尾为H的token pair，依据就近原则搜索一定距离内标签尾为T的token pair来去除掉冗余尾。

然而我们发现前向解码并不能解决冗余头的问题，如图9所示，同一个MMT标签有可能和多个MMH标签相对应，因而我们在多折模型融合阶段，将冗余头集中于一个集合并采用投票方式选择单一最优解。经过这种后处理的优化，高分单模型lb能提升2.5个千分点，低分单模型lb提升2个千分点。

图8: 前向解码就近原则去除冗余尾

图9:解码存在的冗余头通过后向解码投票原则剔除

3.6 grte模型与GPLinker模型融合探究

3.6.1 投票融合探究

比赛初期我们采用概率融合的方式得到五折的融合模型，然而效果要比投票融合效果差一些，究其原因我们认为模型输出概率值普遍偏大或者普遍偏小，0.5附近的置信度输出较少，模型输出概率差异性小，因而我们采用了投票的方式来提交。

训练阶段我们发现训练数据按标点符号切分后的某些样例中不存在标注关系，然而这些样例可能也存在某些单一的关系头实体或者关系尾实体，这些样例即为负样本，负样本加入训练得到的模型评估指标高精确低召回，负样本不参与训练得到的模型评估指标低精确高召回，具有比较大的差异性，因而我们会训练这两种不同的模型加入融合。

图10:grte模型和GPLinker模型投票融合过程

grte模型和GPLinker模型投票融合的方式我们考虑有三种：a、将每个模型得到结果均放进同一个簇中投票。b、将不同种预训练模型得到的五折融合结果放进同一个簇中投票。c、将不同预训练模型得到的单折结果放在同一个fold下去融合，最后拿所有折结果去投票。

经过实验我们发现第三种投票方式能取得最高的收益，具体流程见图10，这是因为DeBERTa模型相比其它模型具有更高的分数，而投票过程又会受到其它低分模型的影响，因而第一种和第二种方式会弱化投票过程的上限。第三种投票方式会得到十个高分的融合簇，投票效果更好。

如表1所示为只使用原始训练数据（不加伪标签）得到的a榜结果。如表2所示为使用伪标签训练得到的a榜结果。表3为我们的最终提交结果。

表1:不加伪标签a榜结果

表2:加伪标签a榜结果

表3:加伪标签b榜结果

3.6.2 stacking融合

图11：lightgbm融合过程

我们尝试过使用lightgbm来做模型的融合，首先我们把使用不同预训练模型得到的每一折的预测结果收集到同一个簇下，发现每一簇的预测结果都具有比较高的召回率，并且随着模型数量增加，召回得到的正样本越多。因而我们打算构建特征并使用lightgbm来做一个二分类任务，将预测的假阳性样本从当前簇中剥离。然而可能是我们加入的特征量不够，最终并没有单纯投票的效果好，因此没有作为我们最后的提交方案。

但是该融合结果比单模型效果要好一些，因此我们觉得有较大的优化空间，需要做更多的数据分析，加入更多的特征，例如基于lstm的特征层等。

4 结论

1.我们找到了更契合该比赛训练数据的预训练模型DeBERTa,使某些词的识别更精确，一定程度上弱化了联合抽取模型存在的边界问题。

2.使用特殊的分折策略、滑动平均以及模型的一些调优获得了更高更稳定的线上分数。

3.利用外部数据，将融合模型对于a榜的预测结果进行了标签的重构，并将伪标签数据加入训练进行模型的迭代，在a榜、b榜均取得了最高的分数。

4.针对grte联合抽取模型前向解码过程普遍存在的关系冗余问题进行了改进，使线上分数提升2-3个千分点。

5.含有负样本的数据与不含有负样本的数据训练得到的模型具有较大差异性，在融合层面表现优异。

6.研究了grte模型和GPLinker模型的融合策略，包括概率融合、投票融合和stacking，最后使用投票融合获得了b榜0.669的分数。

致谢

本文作者向龙盈智达（北京）科技有限公司杨璇、华夏银行股份有限公司张彦超对本项工作提供的支持表示感谢。

参考

[1]Junjie Wang, Yuxiang Zhang, Lin Zhang. Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence.

[2]Feiliang Ren, Longhui Zhang, Shujuan Yin. A Novel Global Feature-Oriented Relational Triple Extraction Model based on Table Filling. arXiv:2109.06705, cs.CL.

[3]Zhe Zhao, Hui Chen, Jinbin Zhang, Xin Zhao. UER: An Open-Source Toolkit for Pre-training Models. EMNLP-IJCNLP 2019.

[4]苏剑林. GPLinker：基于GlobalPointer的事件联合抽取. https://kexue.fm/archives/8926.

[5]陈运文, 文辉, 王文广, 王昊奋. CCL2022汽车工业故障模式关系抽取评测. https://github.com/wgwang/CCL2022.

—End—

戳“阅读原文”，速来参赛办赛~