5 个月前

句子和文档的分布式表示

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

摘要

许多机器学习算法要求输入以固定长度的特征向量形式表示。在处理文本时，最常见的固定长度特征之一是词袋模型。尽管词袋模型广受欢迎，但它有两个主要缺点：一是丢失了词语的顺序，二是忽略了词语的语义。例如，“powerful”（强大的）、“strong”（强壮的）和“Paris”（巴黎）之间的距离相等。本文提出了一种无监督算法——段落向量（Paragraph Vector），该算法从可变长度的文本片段（如句子、段落和文档）中学习固定长度的特征表示。我们的算法通过训练一个密集向量来预测文档中的单词，从而表示每个文档。这种构建方式使得我们的算法有可能克服词袋模型的弱点。实证结果表明，段落向量在文本表示方面优于词袋模型和其他技术。最终，我们在多个文本分类和情感分析任务上取得了新的最佳结果。

代码仓库

bombdiggity/paper-bag

GitHub 中提及

jimmy6727/Informd

GitHub 中提及

TheCyberian/windowsMalwareDetectionWithNLP

GitHub 中提及

julian-risch/ICADL2018

GitHub 中提及

hithisisdhara/doc2vec

pytorch

GitHub 中提及

inejc/paragraph-vectors

pytorch

GitHub 中提及

kr900910/supreme_court_opinion

GitHub 中提及

fabiocorreacordeiro/Elsevier_abstracts-Classification

GitHub 中提及

tsandefer/capstone_2

GitHub 中提及

DCYN/Ramdomized-Clinical-Trail-Classification

GitHub 中提及

vanboefer/nn_doc2vec_exercise

GitHub 中提及

tsandefer/dsi_capstone_2

GitHub 中提及

eske/multivec

GitHub 中提及

kitnhl/partisan-tweets-classification

GitHub 中提及

Nalydy/doc2vec

GitHub 中提及

ibrahimsharaf/doc2vec

GitHub 中提及

g-k-l/dsi-arxiv-recommender

GitHub 中提及

TheCyberian/androidMalwareDetectionWithNLP

GitHub 中提及

slme1109/Lyrics_Generator_Using_LSTM

GitHub 中提及

dhyeon/ingredient-vectors

pytorch

GitHub 中提及

kramamur/sentiment-analysis

GitHub 中提及

slme1109/lyrics-generator

GitHub 中提及

wiflore/IBM_Articles_Recomender

GitHub 中提及

Antonildo43/Classifica-o-de-textos-com-doc2Vec

GitHub 中提及

rvstraalen/doc2vec-workshop

GitHub 中提及

YinpeiDai/NAUM

GitHub 中提及

kinimod23/NMT_Project

GitHub 中提及

https://arxiv.org/abs/1301.3781

基准测试

基准	方法	指标
question-answering-on-qasent	Paragraph vector	MAP: 0.5213 MRR: 0.6023
question-answering-on-qasent	Paragraph vector (lexical overlap + dist output)	MAP: 0.6762 MRR: 0.7514
question-answering-on-wikiqa	Paragraph vector	MAP: 0.5110 MRR: 0.5160
question-answering-on-wikiqa	Paragraph vector (lexical overlap + dist output)	MAP: 0.5976 MRR: 0.6058

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI超神经

算力平台

5 个月前

句子和文档的分布式表示

查看论文详情

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

摘要

代码仓库

bombdiggity/paper-bag

GitHub 中提及

jimmy6727/Informd

GitHub 中提及

TheCyberian/windowsMalwareDetectionWithNLP

GitHub 中提及

julian-risch/ICADL2018

GitHub 中提及

hithisisdhara/doc2vec

pytorch

GitHub 中提及

inejc/paragraph-vectors

pytorch

GitHub 中提及

kr900910/supreme_court_opinion

GitHub 中提及

fabiocorreacordeiro/Elsevier_abstracts-Classification

GitHub 中提及

tsandefer/capstone_2

GitHub 中提及

DCYN/Ramdomized-Clinical-Trail-Classification

GitHub 中提及

vanboefer/nn_doc2vec_exercise

GitHub 中提及

tsandefer/dsi_capstone_2

GitHub 中提及

eske/multivec

GitHub 中提及

kitnhl/partisan-tweets-classification

GitHub 中提及

Nalydy/doc2vec

GitHub 中提及

ibrahimsharaf/doc2vec

GitHub 中提及

g-k-l/dsi-arxiv-recommender

GitHub 中提及

TheCyberian/androidMalwareDetectionWithNLP

GitHub 中提及

slme1109/Lyrics_Generator_Using_LSTM

GitHub 中提及

dhyeon/ingredient-vectors

pytorch

GitHub 中提及

kramamur/sentiment-analysis

GitHub 中提及

slme1109/lyrics-generator

GitHub 中提及

wiflore/IBM_Articles_Recomender

GitHub 中提及

Antonildo43/Classifica-o-de-textos-com-doc2Vec

GitHub 中提及

rvstraalen/doc2vec-workshop

GitHub 中提及

YinpeiDai/NAUM

GitHub 中提及

kinimod23/NMT_Project

GitHub 中提及

https://arxiv.org/abs/1301.3781

基准测试

基准	方法	指标
question-answering-on-qasent	Paragraph vector	MAP: 0.5213 MRR: 0.6023
question-answering-on-qasent	Paragraph vector (lexical overlap + dist output)	MAP: 0.6762 MRR: 0.7514
question-answering-on-wikiqa	Paragraph vector	MAP: 0.5110 MRR: 0.5160
question-answering-on-wikiqa	Paragraph vector (lexical overlap + dist output)	MAP: 0.5976 MRR: 0.6058

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

句子和文档的分布式表示

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

句子和文档的分布式表示

Tomas Mikolov Ilya Sutskever Karine Chèvre Günter Grünwald László Bottou

摘要

代码仓库

基准测试

用 AI 构建 AI

Hyper Newsletters