1500字范文,内容丰富有趣,写作好帮手!
1500字范文 > 基于词向量空间专业化的动词类跨语言归纳与迁移

基于词向量空间专业化的动词类跨语言归纳与迁移

时间:2021-12-08 00:38:00

相关推荐

基于词向量空间专业化的动词类跨语言归纳与迁移

基于词向量空间专业化的动词类跨语言归纳与迁移

本文探讨了三个重要的问题:

(Q1)考虑到它们对分布假设的基本依赖性,在多大程度上无监督的向量空间诱导方法可以促进不同语言间VerbNet风格动词类的自动诱导?

(Q2)能否通过开发通用跨语言资源,如BabelNet (Navigli and Ponzetto,;Ehrmann et al.,)或双语词典,如PanLex(Kamholz et al.,),为低资源语言构建更好的词向量空间,从而促进动词分类?

(Q3)基于规定的VerbNet风格分类的跨语言有效性,是否可以利用一种语言(例如,全英文VerbNet)中丰富的现成注释集自动引导为其他语言创建VerbNet?换句话说,是否可以利用跨语言向量空间将VerbNet知识从资源丰富的语言转移到资源贫乏的语言?(下图为Q3的设想)

图1:通过单词向量空间将VerbNet信息从资源丰富的语言传输到资源贫乏的语言:一个英语→法语的玩具示例。在联合向量空间中,由两种吸引约束描述的词的表示被拉近。(1) 英语中的单语成对限制(例如,(enruin,enshatter),(endestroy,enundo))反映了en VerbNet结构,并由英语中现成的动词分类(实线)生成。它们用于专门化VerbNet关系的分布向量子空间。(2) 跨语言英法成对约束(从BabelNet中提取)描述跨语言同义词(即翻译链接),例如(en_ruin,fr_ruiner)或(en_shatter,fr_fracasser)。基于(1)和(2)的后处理精细调整专门化过程有效地转换了初始分布的法语向量子空间,同时强调了VerbNet风格结构,有助于法语动词类的归纳。

形成verbnet的诱因:VerbNet是一个基于Levin的英语动词分类和分类(Levin,1993;Kipper,)的层次化、领域独立、覆盖面广泛的动词词典。根据其共有意义成分和句法行为动词被分为不同的类别,根据其参与素质的变化来定义,即与相同或相似意义相关的动词框架的变化

本文章将Levin式动词分类的跨语言有效性编码到语言约束驱动的向量空间专业化框架中。然后,在使用矢量维作为特征的详细的特殊表示的基础上运行一个标准的聚类算法来学习动词聚类。

VectorSpace Specialisation

向量空间专业化

Specialisation Model 专业化模式

出发点:PyrRAM模型 该模型逐步修改空间,使指定的词向量更紧密地结合在一起,以小批量的大小k工作。【即下列函数的意义】

V = Vs |_| Vt 【中间那个字符打不上去】Vs和Vt是分别由源语言和目标语言组成的词汇

设 C 为理想词汇关系中的一组词对,包括同verbnet动词对中的词对和跨语言同义词中的词对

(1)式为方法成本函数,该函数第一项(即OC)将吸引示例(xl,xr)∈C拉近(见图1)。BC是指当前吸引约束的小批量。

τ(x) = max(0,x) 是标准直线单位或铰链损耗函数 ,δatt为‘吸引’边距,它决定了吸引约束中的词向量之间应该有多近,而不是它们的反例。【不明白这里的反例“their negative examples”是什么意思】

第二个R(BC)项是正则化,其目的是在初始分布空间中保留编码的语义信息,只要这些信息不与所使用的吸引约束相矛盾。让xi init 指的是词XI的初始分布向量,而让V(BC)是在给定的小批量中存在的所有单词向量的集合。如果λreg表示L2正则化常数,则该项可表示为: 【 使用L1正则化的模型建叫做Lasso回归,使用L2正则化的模型叫做Ridge回归(岭回归)】

语言约束:传递VerbNet风格的知识

通过在专业化框架中组合两种类型的约束,展示如何将注释从知识源(如VerbNet)传播到目标。

(1)从BabelNet中提取,【BabelNet将单词分组为跨语言的BABEL synsets(目前可用于271种语言)。在BabelNet中,语言的覆盖范围不断扩大,这意味着我们提出的框架承诺支持将VerbNet风格的信息传输到许多目标语言(精度越来越高)。】

(2)PanLex,另一个跨语言词典PanLex,在跨语言词向量空间中使用。这本字典目前涵盖1300种语言,超过1200万个表达式,因此也支持低资源传输设置

下图为verbnet的提取方式

** 聚类算法**

给定目标语言向量Vt的初始分布或专门集合,在这些向量上使用现成的聚类算法,以便将动词分组。在先前的工作后,采用MNCut谱聚类算法【该算法在涉及高维特征空间的类似NLP任务中具有广泛的适用性】,再使用Zelnik Manor和Perona()的自校正方法估计簇KClust的数量。【该算法基于词相似度矩阵的特征向量结构,通过最小化代价函数来确定最优数目。】

【然后作者请我们自己看相关资料555】

实验装置

语言文字:法语(FR)、巴西葡萄牙语(PT)、意大利语(IT)、波兰语(PL)、克罗地亚语(HR)和芬兰语(FI)

初始向量空间

训练数据和设置所有目标语言向量都使用相同的设置在大型单语跑步文本上进行训练:300维单词向量,频率截止设置为100,单词包(BOW)上下文,窗口大小为2(Levy和Goldberg,;Schwartz等人,)。所有标记都是小写的,所有数字都转换为占位符符号.8fr,IT词向量都是在标准frWaC和itWaC语料库上训练的(Baroni等人,),其他目标语言的向量在风格和大小相似的语料库上进行训练:HR向量在hrWaC语料库(Ljubeši’c和Klubišcka,)、PT向量在ptWaC(Wagner Filho等人,)、FI向量在FIWAC(Ljubeši’c等人,)和PL向量在Araneum

Polonicum Maius网络语料库(Benko,)上进行训练。请注意,我们不使用目标语言中的任何VerbNet特定知识来归纳和进一步专门化这些词向量。

源EN向量直接取自Levy和Goldberg()的工作:他们在清理和标记的Polyglot Wikipedia(Al-Rfou等人,)上接受SGNS培训,其中包含750m个句子、17b个单词标记和经过小写和频率截止后的180k个单词。为了测量起始源语言空间的重要性以及测试源端的句法知识是否可以传播到目标空间,我们测试了两个不同的向量空间:具有(a)弓形上下文和窗口大小2(SGNS-BOW2)的SGNS;以及(b)基于依赖的上下文(SGNS-DEPS)(Padóand Lapata,;利维和戈德伯格,)。

【虽然不太明白有些词的含义但觉得很重要的样子就复制原文翻译了】

语言制约:a)从BabelNet中提取的每种目标语言中的单语同义约束(Mono Syn);(b)从BabelNet中提取的跨语言内目标约束;(c)跨语言EN-target约束加上EN-VerbNet约束。除非另有说明,否则我们使用BabelNet作为(b)和(c)跨语言约束的默认源。

向量空间特化:PARRAM模型的参数直接来自先前的工作(Wiet等人,),而没有任何附加的NE调谐:δATT=0.6,La Rg=10=9,K=50。我们使用AdaGrad(Duchi等人,)进行5个阶段的训练,没有提前停止。PrasRAM实际上是一个更一般的吸引排斥的特例。专业化框架(Mrkši’cetal.,b):我们在所有实验中都使用该模型的最新和更有效的TensorFlow实现

测试数据:自动动词分类方法的发展需要一个初始金标准(Sun等人,):这些标准是为FR(Sun等人,)、PT(Scarton等人,)、IT、PL、HR和FI(Majewska等人,)开发的。它们是使用Sun等人的方法创建的。(),基于Sun等人的EN黄金标准。()包含17个细粒度Levin类,每个类有12个成员动词。例如,法语中的PUT-9.1类包含accrocher、déposer、mettre、répartir、réintégrer等动词。【也不懂这个】

评估方法

标记修饰纯度(MPUR)的诱导动词簇的平均精度计算如下:

第二个针对回忆的测量是加权类准确度(WACC),计算如下:

以下例行心得

这次比上次顺利一点了,有了方向,对自然语言的理解也没之前那么模糊了,但还是一知半解离“可以了”还差很多,忘师兄不要嫌弃这么拙劣读书笔记 / v \

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。