Command Palette
Search for a command to run...
Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

摘要
许多机器学习算法要求输入以固定长度的特征向量形式表示。在处理文本时,最常见的固定长度特征之一是词袋模型。尽管词袋模型广受欢迎,但它有两个主要缺点:一是丢失了词语的顺序,二是忽略了词语的语义。例如,“powerful”(强大的)、“strong”(强壮的)和“Paris”(巴黎)之间的距离相等。本文提出了一种无监督算法——段落向量(Paragraph Vector),该算法从可变长度的文本片段(如句子、段落和文档)中学习固定长度的特征表示。我们的算法通过训练一个密集向量来预测文档中的单词,从而表示每个文档。这种构建方式使得我们的算法有可能克服词袋模型的弱点。实证结果表明,段落向量在文本表示方面优于词袋模型和其他技术。最终,我们在多个文本分类和情感分析任务上取得了新的最佳结果。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| question-answering-on-qasent | Paragraph vector | MAP: 0.5213 MRR: 0.6023 |
| question-answering-on-qasent | Paragraph vector (lexical overlap + dist output) | MAP: 0.6762 MRR: 0.7514 |
| question-answering-on-wikiqa | Paragraph vector | MAP: 0.5110 MRR: 0.5160 |
| question-answering-on-wikiqa | Paragraph vector (lexical overlap + dist output) | MAP: 0.5976 MRR: 0.6058 |