请教词向量训练的有关问题 #5

Horrypotter · 2019-04-30T02:27:52Z

背景：
刚接触这个领域，请教老师问题

过程：

对2G多的那个train.json中的fact提取，分词，再用word2vec训练出词向量，结果：1280257个词，4.66G。

我看您训练后的只有1G多，觉得可能和没有去除停用词有关，可能和分词后没有去重有关，去掉停用词后，1440045个词，5.24G,数量不减反增，没想明白为什么。

问：

1）一般情况下对语料分词后要不要去除停用词，如果去掉的话，在用词向量表示文档的时候，会不会丢失语义，比如：导致，由于，传说等词，且数字需不需要去掉，因为日期，电话号码等在某些领域很多，是有意义的。

2）在分词的时候，每读取一行语料，分词，写入词文件，这样势必会产生很多相同的词语，这个时候要不要去重，不知道您是怎么做的。

感谢。

zjynifty · 2019-06-11T15:14:48Z

你好，方便把从train.json抽取出的训练集question_train.txt'文件共享一下么。谢谢

dgo2dance · 2019-07-23T08:48:25Z

您好，请教下这个word_vec_300.bin 是怎么训练出来的，数据用的什么，谢谢

21want28k · 2022-09-12T04:18:22Z

背景：刚接触这个领域，请教老师问题

过程：

对2G多的那个train.json中的fact提取，分词，再用word2vec训练出词向量，结果：1280257个词，4.66G。

我看您训练后的只有1G多，觉得可能和没有去除停用词有关，可能和分词后没有去重有关，去掉停用词后，1440045个词，5.24G,数量不减反增，没想明白为什么。

问：

1）一般情况下对语料分词后要不要去除停用词，如果去掉的话，在用词向量表示文档的时候，会不会丢失语义，比如：导致，由于，传说等词，且数字需不需要去掉，因为日期，电话号码等在某些领域很多，是有意义的。

2）在分词的时候，每读取一行语料，分词，写入词文件，这样势必会产生很多相同的词语，这个时候要不要去重，不知道您是怎么做的。

感谢。

请问那个里面的question.train 文件有吗？我看他们都没有找到

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请教词向量训练的有关问题 #5

请教词向量训练的有关问题 #5

Horrypotter commented Apr 30, 2019

zjynifty commented Jun 11, 2019

dgo2dance commented Jul 23, 2019

21want28k commented Sep 12, 2022

请教词向量训练的有关问题 #5

请教词向量训练的有关问题 #5

Comments

Horrypotter commented Apr 30, 2019

zjynifty commented Jun 11, 2019

dgo2dance commented Jul 23, 2019

21want28k commented Sep 12, 2022