Skip to content

Latest commit

 

History

History
373 lines (187 loc) · 13.7 KB

top-firms-100-data-science-interview-questions.md

File metadata and controls

373 lines (187 loc) · 13.7 KB

顶级公司询问的问题:100+数据科学面试问题

原文:www.kdnuggets.com/2017/03/top-firms-100-data-science-interview-questions.html

评论评论

布伦丹·马丁

面试问题来自 Glassdoor 的新数据让我们对一些顶级公司在数据科学家面试中常见的问题有了很好的了解。不幸的是,几乎每家公司都要求面试者签署保密协议。由于 Glassdoor 允许匿名,一些勇敢的灵魂给我们提供了一些出色的例子,展示了他们在 Facebook、Google 和微软等顶级公司面试过程中被问到的问题。


我们的前三大课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织 IT 需求


如果你发现自己无法回答以下一些问题,可以考虑查看一个课程或一本书籍来了解这个主题。

如果你愿意分享你对任何问题的回答,请留下评论,我会将最好的回答添加到帖子中。只需确保用你的真实姓名评论,这样我可以给予你相应的荣誉!

此外,如果你没有看到你被问到的某个特定问题,或者知道一个被问得很多的问题,请在下方评论。我很乐意添加它。

常见问题:

苹果

  1. 假设你拥有数百万用户,每个用户有数百笔交易,这些交易涉及数万个产品。你会如何将用户分组到有意义的段落中?

微软

  1. 描述一个你曾经参与的项目以及它带来的影响。

  2. 你会如何处理具有高基数的分类特征?

  3. 你会如何总结一个 Twitter 动态?

  4. 在应用机器学习算法之前,数据清理和处理的步骤是什么?

  5. 你如何测量数据点之间的距离?

  6. 定义方差。

  7. 描述箱线图和直方图的区别以及它们的使用场景。

推特

推特

  1. 你会使用哪些特征来为用户构建推荐算法?

优步

  1. 选择任何你喜欢的产品或应用,并描述你会如何改进它。

  2. 你如何在分布中找到异常值?

  3. 你会如何调查某个分布中的趋势是否由于异常情况造成的?

  4. 你如何估计 Uber 对交通和驾驶条件的影响?

  5. 你会考虑使用哪些指标来跟踪 Uber 的付费广告策略是否有效?你会如何确定理想的客户获取成本?

LinkedIn

  1. 大数据工程师 你能解释一下什么是 REST 吗?

机器学习问题:

Google

  1. 你为什么使用特征选择?

  2. 如果两个预测变量高度相关,逻辑回归的系数会有什么影响?系数的置信区间是多少?

  3. 高斯混合模型和 K-Means 有什么区别?

  4. 你如何选择 K-Means 中的 k 值?

  5. 你怎么知道高斯混合模型是否适用?

  6. 假设一个聚类模型的标签是已知的,你如何评估模型的表现?

Microsoft

  1. 你为哪个机器学习项目感到自豪?举一个例子。

  2. 选择任何一种机器学习算法并描述它。

  3. 描述梯度提升如何工作。

  4. 数据挖掘 描述决策树模型。

  5. 数据挖掘 什么是神经网络?

  6. 解释偏差-方差权衡

  7. 你如何处理不平衡的二分类问题?

  8. L1 正则化和 L2 正则化有什么区别?

Uber

  1. 你会给 Uber 司机哪些特征来预测他们是否会接受乘车请求?你会使用什么监督学习算法来解决这个问题?你会如何比较算法的结果?

LinkedIn

  1. 说出并描述三种不同的内核函数以及在什么情况下使用每一种。

  2. 描述一种在机器学习中使用的方法。

  3. 你如何处理稀疏数据?

IBM

  1. 你如何防止过拟合?

  2. 你如何处理数据中的离群值?

  3. 你如何分析回归模型与分类模型所生成的预测的表现?

  4. 你如何评估逻辑回归与简单线性回归模型的表现?

  5. 监督学习和无监督学习有什么区别?

  6. 什么是交叉验证,你为什么要使用它?

  7. 用于评估预测模型的矩阵名称是什么?

  8. 逻辑回归系数与赔率比之间存在什么关系?

  9. 主成分分析(PCA)与线性判别分析(LDA)和二次判别分析(QDA)之间有什么关系?

  10. 如果你有一个分类的因变量和一个混合了分类变量和连续变量的自变量,你会使用哪些算法、方法或工具进行分析?

  11. 业务分析 逻辑回归和线性回归有什么区别?你如何避免局部最小值?

Salesforce

  1. 你会使用哪些数据和模型来测量流失率/退订率?你如何评估模型的表现?

  2. 用通俗易懂的方式解释一个机器学习算法,就像你在和一个非技术人员交谈一样。

Capital One

  1. 你如何构建一个模型来预测信用卡欺诈?

  2. 你如何处理缺失或不良数据?

  3. 你如何从已有特征中衍生出新特征?

  4. 如果你尝试预测客户的性别,但只有 100 个数据点,可能会出现什么问题?

  5. 假设你获得了两年的交易历史。你会使用哪些特征来预测信用风险?

  6. 为井字游戏设计一个 AI 程序

Zillow

  1. 解释过拟合,并说明你可以采取哪些步骤来防止它。

  2. 为什么 SVM 需要最大化支持向量之间的间隔?

Hadoop:

Twitter

  1. 你如何使用 Map/Reduce 将一个非常大的图分割成较小的部分,并根据数据的快速/动态变化并行计算边?

  2. 数据工程师 给定一个格式为:123, 345234, 678345, 123…的关注者列表,其中第一列是关注者的 ID,第二列是被关注者的 ID。找出所有互相关注的对(例如上面的对 123 和 345)。当列表不适合内存时,你会如何使用 Map/Reduce 来解决这个问题?

Capital One

  1. 数据工程师 什么是 Hadoop 序列化?

  2. 解释一个简单的 Map/Reduce 问题。

Hive:

LinkedIn

  1. 数据工程师 编写一个 Hive UDF,返回情感得分。例如,如果 good = 1,bad = -1,average = 0,那么一家餐馆的评价是“食物很好,服务不好”,你的得分可能是 1 – 1 = 0。

Spark:

Capital One

  1. 数据工程师 解释 RDD 在 Spark 中如何与 Scala 配合工作

统计与概率问题:

Google

  1. 向非技术人员解释交叉验证。

  2. 描述一个非正态概率分布及其应用方法。

Microsoft

  1. 数据挖掘 解释什么是异方差性及如何解决它

Twitter

  1. 给定 Twitter 用户数据,你将如何衡量参与度?

Uber

  1. 一些不同的时间序列预测技术有哪些?

  2. 解释主成分分析(PCA)及 PCA 使用的方程。

  3. 你如何解决多重共线性?

  4. 分析师 写一个方程式,以优化 Twitter 和 Facebook 之间的广告支出。

Facebook

  1. 从一副牌中抽取两张相同花色的卡的概率是多少?

IBM

  1. 什么是 p 值和置信区间?

Capital One

  1. 数据分析师 如果你有 70 个红色弹珠,而绿色与红色弹珠的比例是 2:7,那么有多少个绿色弹珠?

  2. 纽约市每日通勤的分布会是什么样的?

  3. 给定一个骰子,掷六次得到一个 6 的可能性、掷十二次得到至少两个 6 的可能性,还是掷六百次得到至少一百个 6 的可能性更大?

PayPal

  1. 什么是中心极限定理,你如何证明它?它的应用是什么?

编程与算法:

Google

  1. 数据分析师 编写一个程序来确定任意二叉树的高度

Microsoft

  1. 创建一个函数来检查一个词是否是回文。

Twitter

  1. 构建一个幂集。

  2. 如何找到一个非常大数据集的中位数?

Uber

  1. 数据工程师 编写一个函数,计算给定数字的平方根(精确到小数点后两位)。后续:通过优化函数的缓存机制来避免冗余计算。

Facebook

  1. 假设你有两个二进制字符串,编写一个函数将它们相加,而不使用任何内建的字符串转整数转换或解析工具。例如,如果你给你的函数二进制字符串 100 和 111,它应返回 1011。你的解决方案的空间和时间复杂度是什么?

  2. 编写一个函数,接受两个已排序的列表,并返回它们的并集,结果为排序后的列表。

LinkedIn

  1. 数据工程师 编写一些代码,确定字符串中的括号是否平衡。

  2. 如何在二叉搜索树中找到第二大的元素?

  3. 编写一个函数,接受两个已排序的向量并返回一个排序后的向量。

  4. 如果你有一个不断流入的数字流,你会如何实时找到最频繁的数字?

  5. 编写一个将一个数字提升到另一个数字的函数,即 pow()函数。

  6. 将一个大字符串拆分成有效的单词,并将它们存储在字典中。如果字符串无法拆分,返回 false。你的解决方案的复杂度是什么?

Salesforce

  1. 查找文档中最常用单词的计算复杂度是多少?

  2. 如果你有 10TB 的非结构化客户数据,你会如何提取有价值的信息?

Capital One

  1. 数据工程师 你会如何“拆分”两个数组(类似于 SQL 中的 JOIN,但相反)?

  2. 创建一个执行加法的函数,其中数字由两个链表表示。

  3. 创建一个计算矩阵和的函数。

  4. 你会如何使用 Python 读取一个非常大的制表符分隔的数字文件,以统计每个数字的频率?

PayPal

  1. 编写一个函数,接受一个句子,并打印出每个单词反向的相同句子,时间复杂度为 O(n)。

  2. 编写一个函数,接受一个数组,将数组拆分成所有可能的两个数组集合,并打印两个数组最小值之间的最大差异,时间复杂度为 O(n)。

  3. 编写一个进行归并排序的程序。

SQL 问题:

Microsoft

  1. 数据分析师 定义并解释聚集索引和非聚集索引之间的区别。

  2. 数据分析师 返回表格行数的不同方法有哪些?

Facebook

  1. 数据工程师 如果你有一个原始数据表,你如何使用 SQL 进行 ETL(提取、转换、加载),以获得所需格式的数据?

  2. 如何编写 SQL 查询来计算涉及两个连接的某个属性的频率表?如果你想对某个属性进行 ORDER BY 或 GROUP BY,你需要做哪些更改?你会如何处理 NULL 值?

LinkedIn

  1. 数据工程师 你会如何提高 ETL(提取、转换、加载)的吞吐量?

思维游戏与问题:

Google

  1. 假设你有十袋弹珠,每袋有十个弹珠。如果有一袋的重量与其他袋不同,而你只能进行一次称重,你会如何找出哪一袋是不同的?

Facebook

  1. 你即将登上飞往西雅图的飞机,并想知道是否应该带伞。你给在西雅图的三位朋友打电话,分别问他们是否下雨。

  2. 你的每位朋友在⅔的情况下会说实话,而在⅓的情况下会撒谎。如果三位朋友都回答“是的,下雨了”,那么西雅图实际上正在下雨的概率是多少?

Uber

  1. 想象一下你正在与一家医院合作。病人以泊松分布的方式到达医院,而医生以均匀分布的方式照顾病人。编写一个函数或代码块,输出病人的平均等待时间和医生在随机一天照顾的病人总数。

Facebook

  1. 想象一下在一个等边三角形的每个角落都有三只蚂蚁,每只蚂蚁随机选择一个方向并开始沿着三角形的边缘移动。所有蚂蚁不发生碰撞的概率是多少?如果在一个等边多边形的 N 个角落有 N 只蚂蚁呢?

  2. 100 的阶乘(即 100!)中有多少个末尾零?

LinkedIn

  1. 想象一下你正在爬一个包含 n 阶梯的楼梯,你可以一步迈任何数量的 k 步。你可以用多少种不同的方式到达楼梯的顶部?(这是对原始楼梯问题的修改)

问题来源于Glassdoor

原文。已获转载许可。

相关:

  • 7 个更多必须知道的数据科学面试问题和答案

  • 17 个更多必须知道的数据科学面试问题和答案,第二部分

  • 17 个更多必须知道的数据科学面试问题和答案,第三部分

更多相关话题