Skip to content

Latest commit

 

History

History
123 lines (71 loc) · 7.5 KB

5-fantastic-practical-natural-language-processing-resources.md

File metadata and controls

123 lines (71 loc) · 7.5 KB

5 个极好的实际自然语言处理资源

原文:www.kdnuggets.com/2018/02/5-fantastic-practical-natural-language-processing-resources.html

c 评论

你对一些实际的自然语言处理资源感兴趣吗?

在线有很多 NLP 资源,尤其是那些依赖于深度学习的方法,筛选出优质资源可能是一项艰巨的任务。这里有一些知名的、顶级的理论性资源,尤其是斯坦福和牛津的深度学习课程:


我们的前三名课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT


但如果你已经完成了这些,已经建立了 NLP 基础,想要转向一些实际资源,或者对其他方法感兴趣(这些方法可能不依赖于神经网络),这篇文章(希望)会对你有帮助。

NLTK

1. 用 Python 进行自然语言处理 – 使用自然语言工具包分析文本

这是基础的自然语言处理书籍,至少从实用性和 Python 生态系统的双重视角来看。

这本书提供了对 NLP 领域的高度可读的介绍。它可以用于个人学习,也可以作为自然语言处理或计算语言学课程的教材,或作为人工智能、文本挖掘或语料库语言学课程的补充材料。

正如标题所示,这本书通过使用自然语言工具包(NLTK)来处理 NLP,你可能已经听说过,或者需要立即开始学习。

NLTK 包括大量的软件、数据和文档,所有这些都可以从 nltk.org/ 免费下载。我们为 Windows、Macintosh 和 Unix 平台提供了分发版本。我们强烈建议你下载 Python 和 NLTK,尝试其中的示例和练习。

这本书的最佳部分在于直接切入主题;没有废话,只有大量的代码和概念。

Jon Krohn

2. 自然语言处理的深度学习:Jupyter 笔记本教程

这是与 Jon Krohn 的深度学习 NLP 视频系列配套的 Jupyter 笔记本库。这些笔记本直接从他的视频演示中提取,因此内容几乎没有遗漏。小贴士:如果你有兴趣观看他的视频——这些视频通过 O'Reilly 的 Safari 平台提供——可以注册免费的 10 天试用,并在到期前观看几小时的视频。

这是 Jon 在这些笔记本和配套视频中覆盖内容的概述:

如果你想学习如何:

  • 为机器学习应用预处理自然语言数据;
  • 将自然语言转换为数值表示(使用 word2vec);
  • 使用训练好的深度学习模型进行预测;
  • 使用 Keras(高层次的 TensorFlow API)应用高级 NLP 方法;或者
  • 通过调整超参数来提高深度学习模型的性能。

笔记本、视频以及你自己环境的结合,是打发漫长下午的好方法。

NLP

3. 如何解决 90%的 NLP 问题:逐步指南

这是另一套很棒的笔记本教程,风格上类似于上面的 Krohn。

Insight AI 的 Emmanuel Ameisen 拆解了完成各项任务所需的步骤,但他的总结文章真正出色地将课程内容结合起来,并提供了一些很好的可视化效果。

阅读本文后,你将知道如何:

  • 收集、准备和检查数据
  • 从构建简单模型开始,如有必要过渡到深度学习
  • 解释和理解你的模型,确保你实际上在捕获信息而不是噪声

我们编写了这篇文章作为逐步指南;它也可以作为非常有效的标准方法的高级概述

LSTM

4. Keras LSTM 教程 – 如何轻松构建强大的深度学习语言模型

这个教程比之前的资源更为专注,因为它涉及在 Keras 中实现 LSTM 用于语言建模。就是这样。但它详细地进行了说明,包括解释、代码和视觉展示,并且传达了重点。与其他资源相比,它所需的时间更少,你可以在几个小时内完成从头到尾的学习,包括自己复现代码。

在这个教程中,我将重点介绍如何在 Keras 中创建 LSTM 网络,简要回顾或概述 LSTM 的工作原理。在这个 Keras LSTM 教程中,我们将利用一个名为 PTB 语料库的大型文本数据集来实现一个序列到序列的文本预测模型。

神经网络架构

5. 结合 LSTM-CNN 模型的 Twitter 情感分析

我故意寻找了一个新的情感分析资源来包含在其中,原因是:人们向我询问优质情感分析资源的请求比其他任何东西都要多。

这个较短的教程帖子 -- 这是一个论文的概述,包含代码在此 -- 使用了结合 LSTM/CNN 的方法来分析情感。这个项目展示了不同的架构,并报告了不同的性能。

我们的 CNN-LSTM 模型的准确率比 CNN 模型高出 3%,但比 LSTM 模型低 3.2%。与此同时,我们的 LSTM-CNN 模型比 CNN 模型好 8.5%,比 LSTM 模型好 2.7%。

我不能独立认可该项目的结果;然而,创新的情感分析方法(以及它作为情感分析资源的事实)以及将不同神经网络架构混合在一起,是我将其包含在此列表中的原因,尽管它的长度较短。

相关内容

  • 5 个免费的深度学习自然语言处理入门资源

  • 自然语言处理关键术语解释

  • 处理文本数据科学任务的框架

更多相关话题