- 数据增强,具体来说就是对原数据集进行一定程度的改动,从而得到
-
利用 NMT 做双向翻译——将语言A 翻译到其他语言,再翻译回语言 A
这个过程相当于对样本进行了改写,使得训练样本的数量大大增加 -
QANet 中的做法:
- 对材料中每个句子通过翻译引擎得到
k
句法语候选,然后将每句法语转回英语,得到k^2
个改写的句子,从中随机选择一句作为 - 改写后答案的位置也可能改变,如何寻找新答案的位置?
具体到 SQuAD 任务就是(d,q,a) -> (d’, q, a’)
,问题不变,对文档d
翻译改写,由于改写后原始答案a
现在可能已经不在改写后的段落d’
里了,所以需要从改写后的段落d’
里抽取新的答案a’
,采用的方法是计算d’
里每个单词和原始答案里 start/end words 之间的 character-level 2-gram score,分数最高的单词就被选择为新答案a’
的 start/end word。中文没有里面没有 character-level 2-gram,可以考虑词向量之间的相似度
- 对材料中每个句子通过翻译引擎得到
- 图像中对图片进行缩放、平移、旋转等操作不会改变图片本身含义;语音中对语音的声调、语速、噪声稍加改动也不会改变其结果
- 文本中能做的类似改动比较少,同义词替换算一种
- 哪些词应当被替换
- 应该是用哪个同义词来替换