志在指尖
用双手敲打未来

大数据2_招商-百度网页

—–大数据2_招商主管【44644】百度网页—–为了加速将自然言语处置(NLP)应用到更多的言语,Facebook开源了加强版LASER库,成为第一个胜利地与NLP社辨别享的大型多语种句子表示工具。该工具目前能够运用90多种言语,触及28种不同的字符表。
LASER经过将一切言语都嵌入在一个共享空间来完成这点(而不是不同言语运用着不同的模型)。Facebook同时开源的还有免费提供的多言语编码器和PyTorch代码,以及包括100多种言语的多言语测试集。
LASER完成了从一种言语(如英语)到其他几种言语(包括锻炼数据极为有限的言语)停止NLP零样本迁移的大门,是第一个运用单个模型处置各种言语的库(其中包括低资源言语,如卡拜尔语、维吾尔语,以及吴语等方言)。有朝一日,这项工作能够协助Facebook或其他公司推出些特定的NLP功用,例如能够将同一言语的电影评论分正面和负面,然后用其他100多种言语停止发布。
LASER功用亮点
LASER为XNLI语料库(注:语料库一词在言语学上意指大量的文本)14种言语中的13种带来了更高的零样本跨言语自然言语推理精确率,在跨言语文档分类、并行语料库发掘、多言语类似性(即便是低资源言语)方面也有很好的表现。Facebook 开源增强版 LASER,可使用90多种语言
LASER还具有以下优势:
极快的性能,能在GPU上每秒处置多达2000个句子。
句子编码器是在PyTorch中完成的,只需很少的外部依赖。
资源有限的言语能够从多种言语的结合锻炼中受益。
该模型支持在一个句子中运用多种言语。
随着新言语的参加,系统会学习辨认其语系特征,从而使相关性能有所进步。
通用、言语无关的句子嵌入
LASER的句子向量表示对输入言语和NLP任务是通用的。该工具将任何言语的句子映射到高维空间中的一个点,为的是任何言语中的相同语句最终会呈现在同一邻域中。该表示能够被视为语义向量空间中的一种通用言语。Facebook察看到,该空间中的间隔与句子的语义接近度十分相关。大数据2注册(见下图,图左显现的是单语嵌入空间,图右阐明了LASER的办法——将一切言语嵌入到同一共享空间。)
LASER的办法树立在与神经机器翻译相同的根底技术之上:编码器/解码器办法,也称为序列到序列处置。Facebook为一切输入言语运用一个共享编码器,并运用共享解码器生成输出言语。编码器是五层双向LSTM(长短期记忆)网络。与神经机器翻译相比,Facebook不运用留意机制,而是运用1024维固定大小的向量来表示输入句子。它是经过对BiLSTM的最后状态停止最大池化来取得的。这使得句子表示可以被比拟并直接输入到分类器。下图阐明的是LASER的构造。
零样本、跨言语的自然言语推理
该模型在跨言语自然言语推理(NLI)中获得好的成果,而这项任务的表现是一个强有力的指标,代表着模型能够表示句子的意义。关于零样本设置,能够在英语上锻炼NLI分类器,然后在没有微调或目的言语资源的状况下将其应用于一切目的言语。14种言语中的8种,零样本性能在英语表现的5%以内,其中包括俄语,中文和越南语等。此外,也在斯瓦希里语和乌尔都语等低资源言语上获得好的成果。在最后,14种言语中,LASER有13种言语的表现优于一切以前的零样本迁移办法。
与之前需求句子为英语的办法相比,该系统是完整能够多言语的,并且支持不同言语的前提和假定的组合。下表显现了LASER如何可以肯定不同言语的XNLI语料库中句子之间的关系,而以前的办法只思索了同一言语的前提和假定。
此外,相同的句子编码器也被用于发掘大量单语文本中的并行数据,只需求计算出一切句子间的间隔,并选择间隔最小的一对句子(言语对)。这在共享BUCC任务上的表现远远超越了现有程度。
一样的办法能够用在运用任何言语对,来发掘90多种言语的并行数据。估计这将改善许多依赖于并行锻炼数据的NLP应用程序,包括低资源言语的神经机器翻译。
将来的应用
LASER库也可用于其他相关任务。比方多言语语义空间的属性,就可用于对同种言语或LASER现支持的其他93种言语做出句子的解释、或是搜索类似含义的句子。Facebook表示将继续改良模型、新增更多的言语。

未经允许不得转载:IT技术网站 » 大数据2_招商-百度网页
分享到: 更多 (0)

评论 抢沙发

评论前必须登录!

 

志在指尖 用双手敲打未来

登录/注册IT技术大全

热门IT技术

C#基础入门   SQL server数据库   系统SEO学习教程   WordPress小技巧   WordPress插件   脚本与源码下载