心肺复苏模型

新闻分类

从话语学角度看词嵌入模型

从话语学角度看词嵌入模型

发布日期:2022-11-10 作者:康为 点击:

本文为 AI 研习社编译的技术博客,原标题 :

Moving beyond the distributional model for word representation.

作家 | Tanay Gahlot

翻译 | 乔叔叔

校对 | 酱番梨 整理 | 菠萝妹

原文链接:

https://towardsdatascience.com/https-medium-com-tanaygahlot-moving-beyond-the-distributional-model-for-word-representation-b0823f1769f8

从话语学角度看词嵌入模型


1.jpg


在任意1个基于机械学习的自然话语解决(NLP)流水线中,词的向量化是此中典型的1个方法,由于咱们不可直接给计算机“喂单词”。在词的向量化流程中,咱们为1个单词指定1个N维的向量,拿来表示它的词义。结果,这成了解决流程中最为首要的1个方法之一,由于1个“坏的”表示会造成落败并且为接下来的NLP任务带来不愿看见的牵连。

在词向量化的最常用的技术之一就是词的散布式表示模型。它基于的1个如果是1个词的意义可以从它所在的高低文中推理出去。大部份深度学习论文应用基于该散布式理论而来的词向量,由于它们是“任务普适”(它们不是对于特定任务)况且“话语普适”(它们不是对于特定话语)。不幸的是,散布式方式并非是词向量化任务的魔效兵器。在本博文中,咱们会指出这个方式的许多问题并供应许多潜在的处理计划,以改进词向量化的流程。


2.jpg


散布式表示模型有下列的问题,让人感觉十分苦痛:

稀有词:针对在语料中显现频率过低的词,它们不能通过度布式表示学习获得1个较好的表示。

多义混杂:它们将1个词的一切词义混成1个表示。比如,单词“bank”,在英文中能够指“河岸”或者是“金融机构(银行)”。散布式模型却将一切的这类词义混合在1个表示中。

形式缺失:在表示学习的时候,它们并没有参考1个单词多种形式。例如,“evaluate”和“evaluates”拥有类似的意义,可是散布式表示模型却将它们视为2个不同的单词。(译者注:在英语中,1个单词也许有多种形式,特别是动词,偶尔态、人称、被动主动等相应的不同形式。在本例中evaluates是evaluate的第三人称双数的通常如今时的形式。)

幸运的是,为了解决这类问题,大家进行了十分全面的研发。大抵上,这类处理方法能够划为3个首要类型。咱们将会根据以下的次序一一简介:

形式敏感嵌入

在词嵌入中,将话语或性能束缚进行加强。

多词义解决

形式敏感嵌入

这类技术在学习词嵌入的时候,将词的形式进行了参考。Fasttext就是这类技术的1个典型代表。它将1个单词表示成了n-grams(n元模子)字符的汇总。比如单词where就能够表示成

在应用这类方式(下表的sisg)对许多词汇形式充足的话语,例如德语(De)、法语(FR)、西班牙语(ES),俄语(RU)和捷克语(Cs),进行话语建模的时候,经评价,相较于没有应用预训练词向量的LSTM,并且应用了预训练词向量却没有有关词根数据的LSTM模型(下表的sg),成效都有了改进。


3.jpg


况且,既然fasttext将单词表示为n元字符(n-gram)的组合,因而它就能为那些语料库中从来没有显现过的词供应嵌入。在许多行业如生命科学行业,因为词汇表十分有限(长尾情况),语料中大部份的单词都纳入到未知类型中,该技术就显得特别有用。

Morphfitting供应了此外1个技术选项拿来将词的形式填写到词嵌入模型中。在这项工作中,他们用“相吸相斥”(Attract-Repel)方式来“后解决”(post-process)词嵌入,该方式“聚焦”波折形式(通过词的形态改变来表示有意思的句法数据,例如动词时态,却不变化词义),而“排挤”派生形式(新形态的单词显现同时词义也产生迁移改变)。在下一部份咱们会全面研讨“相吸相斥”方式。


4.jpg


通过注入话语形式学的束缚,Morphfitting在SimLex和SimVerb2个信息集上的有关系数评价中都超越了下表给出的10个规范嵌入模型。


5.jpg


在词嵌入中,将话语或性能束缚进行加强

此外一种词空间定论的方式是在词嵌入的后解决中进行话语/性能束缚。在上一节中咱们已然看见这种方式的1个例子—Morphfitting。在这一节,咱们将会开拓一下Morphfitting中应用的定论词嵌入的方式—相吸相斥法(Attract-Repel)。

相吸相斥法(Attract-Repel)是一类后解决技术,它依据话语束缚将预训练的词嵌入进行进一步定论。比如,在Morphfitting中,话语束缚是以两类合集的形态来表示,再次给出表格2如下:

表格的上半部份是“相吸合集”(译者注:由多个词义相近的单词对构成的合集),下半部份是“相斥合集”(译者注:由多个词义不同的单词对构成的合集)。借用这类合集,1个迷你批次就生成了,它能够拿来优化以下的损失函数: 

损失函数中的第一项相应的是相吸合集,第二项相应的是相斥合集。第三项则保留了散布式表示。况且,前面两项也会引入负样例,这是采取了PARAGRAM模型的主意。损失函数(又:本钱函数)的前两项由下式给出:

第三项由下式给出:

人们能够用“相吸相斥”法注入用相吸相斥集来表示的话语束缚,例如“同义与反义”或者“波折形式与派生形式”。而对应地,那些不能借用话语束缚来表示的“类似性”或者“非类似性”,人们就不可进行词嵌入定论了。比如,不同“治愈”型号的联系,就不能用相吸相斥法来捕捉。为了顺应如此的性能联系,咱们简介此外一类方式叫做“性能改装”(Functional Retrofitting)。

在性能改装方式中,联系的语义学习与词空间的学习是同步进行的。而获取这一点的方式,首要是将相吸相斥法中的点积更换成1个优化学习流程得来的函数。

上式中的第一项保留了散布式嵌入,第二项和第三项则引入了常识图谱中的正向联系空间(E+)与负向联系空间(E-)(译者注:负向联系空间是没有在常识图谱中表明的联系的合集),最终一项在学习函数中施行正则化性能。

通过在国际体系医学术语集(SNOMED-CT)之上预判2个实体(i,j)之间的联系(r)而做的链路预判,性能改装方式的语义学习成效获得了验证。四种不同型号的性能改装方式分别对四种联系( “拥有发掘部位Has Finding Site”、 “拥有病理流程Has Pathological Process”、 “诱因Due to”、 “病症Cause of”)进行了预判,其结果如下表所示:


6.jpg


更多对于性能改装的数据,你能够考虑一篇由Christopher Potts写的优质blog。假设你须要性能或话语束缚来进一步定论你的词嵌入,请试用Linked Open Data Cloud上优质的、拥有互联联系的本体汇编。

上述的方式刷新了各次汇报的词嵌入。假设你对定论全部词空间感兴致,你能够用反向传递来如此做,正如Ivan Vuli?和Nikola Mrk?i?在EMNLP 2018论文中倡议的那样(Adversarial Propagation and Zero-Shot Cross-Lingual Transfer of Word Vector Specialization)。


7.jpg


多词义解决

最终一种词嵌入定论技术是参考词的多义性,或者是参考词的高低文,或者是借用词义库。让咱们先以前一种方式开启 – ELMO。

在ELMO中,词是基于高低文而被向量化的。因而为了可以用向量表示1个词,人们也须要指定某个词显现的高低文。与那些没有参考高低文的向量化技术相较为,这个方式已然证实是十分有效的。下例较为了ELMO(biLM)和Glove的较近邻。


8.jpg


ELMO背后的根本意识是得出双向话语模型(BiLM)逐个旁边层的内部状况加权汇总并且最终一层的字符卷积网络表示。

ELMO的词嵌入在3个下游任务SQuAD、SNLI和SRL中进行了测验,相较于基准它有了明显的改善。


9.jpg


更多对于ELMO的数据,请考虑这篇AllenNLP写的博文。假设你想从散布式词表示中应用词汇资源来压缩语义,你能够用DECONF。在这个方式中,Mohammad Taher Pilehvar提出了一类体制来应用以下的优化规范,进而从散布式嵌入中压缩语义嵌入:

上式中,第一项保留了语义散布表示的近似,第二项会将词义嵌入向产生偏移的词义推得愈加挨近许多。这个流程能够很清楚地用下图来描绘。


10.jpg


偏移词集是用1个定制的Page Rank算法基于1个词汇术语(借用词汇资源创立而来)的语义网络计算而来的。

咱们应用4个单词类似度基准方式分别做了皮尔森有关有关性和斯皮尔曼有关性评价,DECONF在绝大多数任务中都获得了最超前的结果,如下表所示:


11.jpg


论断

假设如处在没有充足训练信息来重新学习词嵌入的景况,我高度举荐应用上面提及的词表示的方式来获得许多百分比的改进。对于本话题更深入的研讨,我高度举荐Ivan Vuli?在ESSLLI 2018中Word vector specialisation的课程。

要想持续查阅该篇文章有关链接和考虑文献?

长按链接点击翻开或点击【从话语学角度看词嵌入模型】:

https://ai.yanxishe.com/page/TextTranslation/1181

AI研习社每天刷新精彩内容,观看更多精彩内容:

这5种计算机视觉技术,更新你的世界观迁移学习:怎样将预训练CNN当做特点提炼器新人必读:深度学习是什么?它的工作原理是什么?Python顶级方法:用一行代码减小一半内存占用

等你来译:雷锋网雷锋网雷锋网

预训练模型及其运用 一文带你读懂线性分类器 (Python)3D人脸解决工具face3d 让你的电脑具有“视力”,用卷积神经网络就能够!



本文网址:http://www.xizd.com/news/1863.html

相关标签:体系医学术语集

最近浏览:

相关产品:

相关新闻:

在线客服
分享