大数据2_招商-百度网页

—–大数据2_招商主管【44644】百度网页—–为了加速将自然言语处置（NLP）应用到更多的言语，Facebook开源了加强版LASER库，成为第一个胜利地与NLP社辨别享的大型多语种句子表示工具。该工具目前能够运用90多种言语，触及28种不同的字符表。
LASER经过将一切言语都嵌入在一个共享空间来完成这点（而不是不同言语运用着不同的模型）。Facebook同时开源的还有免费提供的多言语编码器和PyTorch代码，以及包括100多种言语的多言语测试集。
LASER完成了从一种言语（如英语）到其他几种言语（包括锻炼数据极为有限的言语）停止NLP零样本迁移的大门，是第一个运用单个模型处置各种言语的库（其中包括低资源言语，如卡拜尔语、维吾尔语，以及吴语等方言）。有朝一日，这项工作能够协助Facebook或其他公司推出些特定的NLP功用，例如能够将同一言语的电影评论分正面和负面，然后用其他100多种言语停止发布。
LASER功用亮点
LASER为XNLI语料库（注：语料库一词在言语学上意指大量的文本）14种言语中的13种带来了更高的零样本跨言语自然言语推理精确率，在跨言语文档分类、并行语料库发掘、多言语类似性（即便是低资源言语）方面也有很好的表现。
LASER还具有以下优势：
极快的性能，能在GPU上每秒处置多达2000个句子。
句子编码器是在PyTorch中完成的，只需很少的外部依赖。
资源有限的言语能够从多种言语的结合锻炼中受益。
该模型支持在一个句子中运用多种言语。
随着新言语的参加，系统会学习辨认其语系特征，从而使相关性能有所进步。
通用、言语无关的句子嵌入
LASER的句子向量表示对输入言语和NLP任务是通用的。该工具将任何言语的句子映射到高维空间中的一个点，为的是任何言语中的相同语句最终会呈现在同一邻域中。该表示能够被视为语义向量空间中的一种通用言语。Facebook察看到，该空间中的间隔与句子的语义接近度十分相关。大数据2注册（见下图，图左显现的是单语嵌入空间，图右阐明了LASER的办法——将一切言语嵌入到同一共享空间。）
LASER的办法树立在与神经机器翻译相同的根底技术之上：编码器/解码器办法，也称为序列到序列处置。Facebook为一切输入言语运用一个共享编码器，并运用共享解码器生成输出言语。编码器是五层双向LSTM（长短期记忆）网络。与神经机器翻译相比，Facebook不运用留意机制，而是运用1024维固定大小的向量来表示输入句子。它是经过对BiLSTM的最后状态停止最大池化来取得的。这使得句子表示可以被比拟并直接输入到分类器。下图阐明的是LASER的构造。
零样本、跨言语的自然言语推理
该模型在跨言语自然言语推理（NLI）中获得好的成果，而这项任务的表现是一个强有力的指标，代表着模型能够表示句子的意义。关于零样本设置，能够在英语上锻炼NLI分类器，然后在没有微调或目的言语资源的状况下将其应用于一切目的言语。14种言语中的8种，零样本性能在英语表现的5％以内，其中包括俄语，中文和越南语等。此外，也在斯瓦希里语和乌尔都语等低资源言语上获得好的成果。在最后，14种言语中，LASER有13种言语的表现优于一切以前的零样本迁移办法。
与之前需求句子为英语的办法相比，该系统是完整能够多言语的，并且支持不同言语的前提和假定的组合。下表显现了LASER如何可以肯定不同言语的XNLI语料库中句子之间的关系，而以前的办法只思索了同一言语的前提和假定。
此外，相同的句子编码器也被用于发掘大量单语文本中的并行数据，只需求计算出一切句子间的间隔，并选择间隔最小的一对句子（言语对）。这在共享BUCC任务上的表现远远超越了现有程度。
一样的办法能够用在运用任何言语对，来发掘90多种言语的并行数据。估计这将改善许多依赖于并行锻炼数据的NLP应用程序，包括低资源言语的神经机器翻译。
将来的应用
LASER库也可用于其他相关任务。比方多言语语义空间的属性，就可用于对同种言语或LASER现支持的其他93种言语做出句子的解释、或是搜索类似含义的句子。Facebook表示将继续改良模型、新增更多的言语。