NLP-自然语言处理实践

Index

NLP 怎么做数据增强

数据增强，具体来说就是对原数据集进行一定程度的改动，从而得到

双向翻译

利用 NMT 做双向翻译——将语言A 翻译到其他语言，再翻译回语言 A
这个过程相当于对样本进行了改写，使得训练样本的数量大大增加
QANet 中的做法：
- 对材料中每个句子通过翻译引擎得到k句法语候选，然后将每句法语转回英语，得到k^2个改写的句子，从中随机选择一句作为
- 改写后答案的位置也可能改变，如何寻找新答案的位置？
  具体到 SQuAD 任务就是 (d,q,a) -> (d’, q, a’)，问题不变，对文档 d 翻译改写，由于改写后原始答案 a 现在可能已经不在改写后的段落 d’ 里了，所以需要从改写后的段落 d’ 里抽取新的答案 a’，采用的方法是计算 d’ 里每个单词和原始答案里 start/end words 之间的 character-level 2-gram score，分数最高的单词就被选择为新答案 a’ 的 start/end word。
  
  中文没有里面没有 character-level 2-gram，可以考虑词向量之间的相似度

同义词替换 TODO

图像中对图片进行缩放、平移、旋转等操作不会改变图片本身含义；语音中对语音的声调、语速、噪声稍加改动也不会改变其结果
文本中能做的类似改动比较少，同义词替换算一种
- 哪些词应当被替换
- 应该是用哪个同义词来替换