Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请教词向量训练的有关问题 #5

Open
Horrypotter opened this issue Apr 30, 2019 · 3 comments
Open

请教词向量训练的有关问题 #5

Horrypotter opened this issue Apr 30, 2019 · 3 comments

Comments

@Horrypotter
Copy link

背景:
刚接触这个领域,请教老师问题

过程:

对2G多的那个train.json中的fact提取,分词,再用word2vec训练出词向量,结果:1280257个词,4.66G。

我看您训练后的只有1G多,觉得可能和没有去除停用词有关,可能和分词后没有去重有关,去掉停用词后,1440045个词,5.24G,数量不减反增,没想明白为什么。

问:

1)一般情况下对语料分词后要不要去除停用词,如果去掉的话,在用词向量表示文档的时候,会不会丢失语义,比如:导致,由于,传说等词,且数字需不需要去掉,因为日期,电话号码等在某些领域很多,是有意义的。

2)在分词的时候,每读取一行语料,分词,写入词文件,这样势必会产生很多相同的词语,这个时候要不要去重,不知道您是怎么做的。

感谢。

@zjynifty
Copy link

你好,方便把从train.json抽取出的训练集question_train.txt'文件共享一下么。谢谢

@dgo2dance
Copy link

您好,请教下这个word_vec_300.bin 是怎么训练出来的,数据用的什么,谢谢

@21want28k
Copy link

背景: 刚接触这个领域,请教老师问题

过程:

对2G多的那个train.json中的fact提取,分词,再用word2vec训练出词向量,结果:1280257个词,4.66G。

我看您训练后的只有1G多,觉得可能和没有去除停用词有关,可能和分词后没有去重有关,去掉停用词后,1440045个词,5.24G,数量不减反增,没想明白为什么。

问:

1)一般情况下对语料分词后要不要去除停用词,如果去掉的话,在用词向量表示文档的时候,会不会丢失语义,比如:导致,由于,传说等词,且数字需不需要去掉,因为日期,电话号码等在某些领域很多,是有意义的。

2)在分词的时候,每读取一行语料,分词,写入词文件,这样势必会产生很多相同的词语,这个时候要不要去重,不知道您是怎么做的。

感谢。

请问那个里面的question.train 文件有吗?我看他们都没有找到

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants