We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
背景: 刚接触这个领域,请教老师问题
过程:
对2G多的那个train.json中的fact提取,分词,再用word2vec训练出词向量,结果:1280257个词,4.66G。
我看您训练后的只有1G多,觉得可能和没有去除停用词有关,可能和分词后没有去重有关,去掉停用词后,1440045个词,5.24G,数量不减反增,没想明白为什么。
问:
1)一般情况下对语料分词后要不要去除停用词,如果去掉的话,在用词向量表示文档的时候,会不会丢失语义,比如:导致,由于,传说等词,且数字需不需要去掉,因为日期,电话号码等在某些领域很多,是有意义的。
2)在分词的时候,每读取一行语料,分词,写入词文件,这样势必会产生很多相同的词语,这个时候要不要去重,不知道您是怎么做的。
感谢。
The text was updated successfully, but these errors were encountered:
你好,方便把从train.json抽取出的训练集question_train.txt'文件共享一下么。谢谢
Sorry, something went wrong.
您好,请教下这个word_vec_300.bin 是怎么训练出来的,数据用的什么,谢谢
背景: 刚接触这个领域,请教老师问题 过程: 对2G多的那个train.json中的fact提取,分词,再用word2vec训练出词向量,结果:1280257个词,4.66G。 我看您训练后的只有1G多,觉得可能和没有去除停用词有关,可能和分词后没有去重有关,去掉停用词后,1440045个词,5.24G,数量不减反增,没想明白为什么。 问: 1)一般情况下对语料分词后要不要去除停用词,如果去掉的话,在用词向量表示文档的时候,会不会丢失语义,比如:导致,由于,传说等词,且数字需不需要去掉,因为日期,电话号码等在某些领域很多,是有意义的。 2)在分词的时候,每读取一行语料,分词,写入词文件,这样势必会产生很多相同的词语,这个时候要不要去重,不知道您是怎么做的。 感谢。
请问那个里面的question.train 文件有吗?我看他们都没有找到
No branches or pull requests
背景:
刚接触这个领域,请教老师问题
过程:
对2G多的那个train.json中的fact提取,分词,再用word2vec训练出词向量,结果:1280257个词,4.66G。
我看您训练后的只有1G多,觉得可能和没有去除停用词有关,可能和分词后没有去重有关,去掉停用词后,1440045个词,5.24G,数量不减反增,没想明白为什么。
问:
1)一般情况下对语料分词后要不要去除停用词,如果去掉的话,在用词向量表示文档的时候,会不会丢失语义,比如:导致,由于,传说等词,且数字需不需要去掉,因为日期,电话号码等在某些领域很多,是有意义的。
2)在分词的时候,每读取一行语料,分词,写入词文件,这样势必会产生很多相同的词语,这个时候要不要去重,不知道您是怎么做的。
感谢。
The text was updated successfully, but these errors were encountered: