Command Palette
Search for a command to run...
Piotr Bojanowski* Edouard Grave* Armand Joulin Tomas Mikolov

摘要
连续词表示,通过在大规模未标注语料库上训练,对许多自然语言处理任务非常有用。现有的流行模型在学习这些表示时忽略了词的形态学特征,为每个词分配一个独立的向量。这在处理词汇量大且包含大量罕见词的语言时是一个限制。本文提出了一种基于skip-gram模型的新方法,其中每个词被表示为字符n-gram(即长度为n的字符序列)的集合。每个字符n-gram都有一个对应的向量表示;词语则由这些向量表示的和来表示。我们的方法速度快,能够在大规模语料库上快速训练模型,并且可以计算出未出现在训练数据中的词语的表示。我们在九种不同的语言上评估了我们的词表示,在词汇相似性和类比任务中进行了测试。通过与最近提出的形态学词表示进行比较,我们展示了我们的向量在这类任务中达到了最先进的性能。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| word-similarity-on-ws353 | SkipGram | Spearman's Rho: 61.0 |