Skip to content

Latest commit

 

History

History
26 lines (20 loc) · 1.62 KB

NLP-自然语言处理实践.md

File metadata and controls

26 lines (20 loc) · 1.62 KB

NLP-自然语言处理实践

Index

NLP 怎么做数据增强

  • 数据增强,具体来说就是对原数据集进行一定程度的改动,从而得到

双向翻译

  • 利用 NMT 做双向翻译——将语言A 翻译到其他语言,再翻译回语言 A
    这个过程相当于对样本进行了改写,使得训练样本的数量大大增加

  • QANet 中的做法:

    • 对材料中每个句子通过翻译引擎得到k句法语候选,然后将每句法语转回英语,得到k^2个改写的句子,从中随机选择一句作为
    • 改写后答案的位置也可能改变,如何寻找新答案的位置
      具体到 SQuAD 任务就是 (d,q,a) -> (d’, q, a’),问题不变,对文档 d 翻译改写,由于改写后原始答案 a 现在可能已经不在改写后的段落 d’ 里了,所以需要从改写后的段落 d’ 里抽取新的答案 a’,采用的方法是计算 d’ 里每个单词和原始答案里 start/end words 之间的 character-level 2-gram score,分数最高的单词就被选择为新答案 a’ 的 start/end word。

      中文没有里面没有 character-level 2-gram,可以考虑词向量之间的相似度

同义词替换 TODO

  • 图像中对图片进行缩放、平移、旋转等操作不会改变图片本身含义;语音中对语音的声调、语速、噪声稍加改动也不会改变其结果
  • 文本中能做的类似改动比较少,同义词替换算一种
    • 哪些词应当被替换
    • 应该是用哪个同义词来替换