原文:
www.kdnuggets.com/2022/10/10-cheat-sheets-need-ace-data-science-interview.html
图片来源:作者
这 10 个备忘单适用于初学者、学生、求职者和专业人士。这些是我的最爱,它们经过精心挑选,以便你不必为数据科学的每个子类别寻找最佳备忘单。
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织进行 IT 工作
备忘单是救命稻草。在我准备数据科学和机器学习面试时,它们帮助了我多次。我只花了 30 分钟就复习了所有旧但必要的概念,为任何技术问题做好准备。
备忘单列表包括:
-
SQL
-
网络爬虫
-
统计学
-
数据清洗
-
数据可视化
-
商业智能
-
机器学习
-
深度学习
-
自然语言处理
-
超级备忘单。
注意: 有些备忘单是可下载的 PDF 文件,有些是基于 HTML 的,有些则以博客风格编写。
Dataquest 提供的备忘单示例
SQL 由 Dataquest 提供,是一份博客风格的备忘单。它将为你提供 SQL 基本查询的概述。
-
基础知识: 选择行和列、注释以及限制
-
连接: 内连接、左连接、右连接和外连接
-
复杂查询: 子查询、字符串匹配、案例、With 子句、创建和删除视图、并集、交集和链式查询
作为一名数据科学家,你必须了解这些功能和命令,以通过 SQL 编码面试。即使在之后,它们也将是你工作生活中的重要组成部分。提取特定数据、创建管道、处理数据以及使用 SQL 命令和复杂查询进行分析。
图片来源:Frank Andrade
网络爬虫 由 Frank Andrade 提供,是一个基于博客的备忘单,涵盖了网络爬虫的所有基础知识以及如何利用它创建自动化网页爬虫。对于数据专业人士来说,掌握网络爬虫技能是一个加分项。它将帮助他们从基于 HTML 的网站和 API 中收集数据。
你将学习到:
-
网络爬虫的 HTML
-
Beautiful Soup
-
XPath
-
Selenium
-
Scrapy
-
网络爬虫的 Python 基础
备忘单包含易于遵循的代码示例和可视化辅助。你可以学习各种网络爬虫 Python 库的函数,并自动化你的工作流程。
来自 stanford.edu 的备忘单示例
统计学 由 stanford.edu 提供,是一个基于 HTML 的备忘单。它涵盖了所有统计概念,包括数学公式和可视化示例(如果可能的话)。
它被分为 5 个核心部分:
-
参数估计
-
置信区间
-
假设检验
-
回归分析
-
相关性分析
在技术工作展示中,你需要用统计术语支持你的论点。阅读备忘单 5 分钟将帮助你记住核心术语和公式。
来自 DataCamp 的备忘单示例
Pandas 数据处理 由 DataCamp 提供,是一个基于 PDF 的单页备忘单。它包含各种数据处理技术的代码和可视化示例。
-
重塑数据: 数据透视、透视表、堆叠和拆分以及熔化
-
迭代
-
处理缺失数据
-
高级索引: 重新索引、设置和取消设置索引以及多级索引。
-
重复数据
-
分组数据
-
合并表格: 合并、连接和串联
-
日期
-
可视化
这是一个很好的资源,可以复习 pandas 库的所有核心功能。
来自 DataCamp 的图像
数据可视化 由 DataCamp 提供,是理解数据可视化及其使用时机的最佳备忘单。它是一个混合型(博客+PDF)备忘单,涵盖了数据可视化的所有基本概念。
你将学习到:
-
如何捕捉趋势
-
如何可视化关系
-
部分到整体图表
-
如何可视化单一值
-
如何捕捉分布
-
可视化流程
你可以将所有核心概念作为博客阅读或下载 PDF 文件。你会惊讶于这些对于图表选择的必要性。
备忘单示例来自 learnovita.com
Tableau由 learnovita.com 提供,是一个基于博客的备忘单。它涵盖了所有基本功能、数据类型、可视化类型和命令。
它包括:
-
数据源
-
数据提取
-
数据连接
-
数据融合
-
操作符
-
LOD 表达式
-
排序
-
过滤器
-
图表
Tableau 是商业智能领域最著名的工具。它将帮助你通过几次点击进行数据分析、可视化和整理。此外,你可以在几分钟内创建故事和仪表板。在数据分析和数据科学相关工作中对此需求很高。
“为了获取这些备忘单的最大效果,我建议你将此页面收藏,并回顾所有备忘单。浏览所有 API、命令和技术术语只需 30 分钟。”
备忘单示例来自 DataCamp
使用 Scikit-Learn 的机器学习由 DataCamp 提供,是一个基于 PDF 的备忘单,将帮助你复习所有数据处理和建模的函数和命令。
你将学习 Scikit-Learn 的 API:
-
数据加载
-
预处理
-
数据拆分
-
构建模型
-
模型训练
-
预测
-
模型评估
-
模型调优
这个备忘单在编程考试、技术面试或仅仅是复习命令以运行简单的机器学习任务时非常方便。
备忘单示例来自 DataCamp
使用 Keras 的深度学习由 DataCamp 提供,是一个基于 PDF 的备忘单,可以用来回顾所有的 Keras 函数,包括数据预处理和神经网络。
它将帮助你:
-
加载默认数据集
-
预处理
-
神经网络模型架构
-
预测
-
模型检查
-
模型编译
-
模型训练和评估
-
模型保存和加载
-
微调
这是一个基于代码的备忘单,假设你了解构建和训练神经网络的基础知识。你只需一瞥便能理解各种函数,这将帮助你在编程面试和家庭作业中。
来自janlukasschroeder的备忘单示例
NLP由janlukasschroeder提供,是一本独一无二的自然语言处理(NLP)备忘单。这是一份基于 GitHub 的备忘单,其中所有内容都使用 Markdown 格式在 README.md 文件中创建。
你将学到:
-
词嵌入
-
停用词
-
范围
-
分词
-
词块与词块化
-
词性标注(POS)
-
BILUO 标注
-
词干提取
-
词形还原
-
句子检测
-
依赖解析
-
命名实体识别(NER)
-
文本分类
-
相似度
-
N-grams
-
可视化
-
核函数
-
文本摘要
-
情感分析
-
莱文斯坦距离
-
马尔可夫决策过程
-
概率以丢弃词语以减少噪音
它包含了你想了解的 NLP 基础知识和语言应用。你还将学习各种神经网络架构、损失函数、优化器和正则化器。如果你喜欢这份备忘单,给它一个星标。
来自GitHub的备忘单示例
超级数据科学由马弗里克·林提供,是一本基于 PDF 的多页备忘单,也是我最喜欢的。它涵盖了从算法到 SQL 的所有主题。备忘单纯粹是理论性的,包含数学和视觉辅助。
它包含各种类别:
-
概率
-
统计学
-
数据类型
-
数据清理
-
特征工程
-
统计分析
-
分布
-
模型评估指标
-
线性回归
-
距离方法
-
最近邻分类
-
聚类
-
机器学习
-
深度学习
-
大数据
-
图论
-
SQL
如果你像我一样懒惰,我想你会喜欢一次性复习所有内容,并对面试充满信心。我并不是说你应该忽视上述所有内容。这十项都是你在数据科学、数据分析或机器学习面试中成功所必需的,尤其是基于 HTML 和博客文章的内容。
Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专家,热爱构建机器学习模型。目前,他专注于内容创作,撰写关于机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是使用图神经网络构建一个 AI 产品,帮助那些在精神疾病方面挣扎的学生。