1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 论文浅尝 - ACL | 通过集成知识转换进行多语言知识图谱补全

论文浅尝 - ACL | 通过集成知识转换进行多语言知识图谱补全

时间:2019-05-07 11:11:22

相关推荐

论文浅尝 - ACL | 通过集成知识转换进行多语言知识图谱补全

笔记整理 | 谭亦鸣,东南大学博士生

概述

预测图谱中缺失的事实(fact)是知识图谱构建与推理中的一个重要任务,近年来也被许多KG embedding研究的关注对象。虽然目前的KG embedding方法主要学习和预测的是单个图谱中的事实,但是考虑到KG之间不同规模,不同质量和覆盖面的差异,一个更加合理的解决方案是将其应用于多语言知识上。由于知识在不同KG之间的传递往往收到描述不一致和对齐信息缺失的问题,因此(多语言知识图谱上的补全)这是一个具有挑战性的任务。本文提出了KEnS,一个新的框架,可以用于embedding学习以及在多个特定语言KG上集成知识并相互转换。KEnS将所有的KG embed进一个共享空间,通过self-learning捕获关联实体,之后执行集成推理从而将多语言KG embedding上的预测结果联合起来。作者探究了多种联合的模式,在五个真实多语言KG上的实验表明,通过有效识别和利用补充的知识,KEnS在补全任务上进一步提升了SOTA方法的性能。

方法

图1描述了KEnS的集成推理过程,该模型首先联合多语言KG embedding模型的预测结果,然后从那些结果中找出可能性最大的答案,从而提升图谱补全的性能。KEnS包括两个主要过程:1. Embedding学习;2. 集成推理。前者将每个KG的实体和关系编码进一个共享的embedding空间(类似于对齐模型的做法),这使得模型支持跨不同KG的查询。集成推理过程联合来自不同KG的预测结果,并且为了进一步提高每个KG上预测的可靠性,作者引入了一种增强方法来学习知识模型的实体特定权重。

下面分别对KG embedding及集成推理的细节进行说明:

在embedding方面,包含知识模型与对齐模型两个部分,其中知识模型的学习目标可以通过公式1表示:

其中[·]+=max(·, 0),f是一个三元组打分函数,越高的得分表明该三元组描述的事实越可靠,是一个超参数,则表示通过随机替换生成的的负例,在f函数方面,作者考虑了TransE以及RotatE两种方式:

在对齐模型方面,其学习目标如公式4(通过训练使对齐实体之间的向量距离尽可能小):

两者整合的目标函数为:

集成推理部分,首先KEnS通过对齐模型预测多语言图谱之间的实体对齐,基于对齐实体,将query转换到其他KG上,获取结果之后再通过对齐转换回初始KG,接着对于获取的候选结果,利用公式6对其进行加权:

其中,e表示目标KG上的一个实体,wi(e)表示一个实体特定模型权重,当e在KGi的embedding模型fi上排在Top-K, 则Ni(e)为1,否则Ni(e)为0。这里在w的计算上,作者构建了三种变体,其一是利用boosting方法对每个实体学习特定权重,其二是对所有实体和embedding模型修正权重为1,其三则是使用embedding模型f在验证集上的mean reciprocal rank(MRR)作为权重。

实验

数据方面,由于目前还没有一个面向多语言补全的数据集,因此他们收集了一个涵盖英语,法语,西班牙语,日语以及希腊语等语言的DBpedia子集,并命名为DBP-5L,其上的预测结果如标2所示:

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。