Skip to content

Latest commit

 

History

History
81 lines (41 loc) · 5.38 KB

data-scientist-data-problem-wrong.md

File metadata and controls

81 lines (41 loc) · 5.38 KB

数据科学家认为数据是他们的头号问题。这就是为什么他们错了。

原文:www.kdnuggets.com/2020/09/data-scientist-data-problem-wrong.html

评论

詹姆斯·泰勒,数字决策和从 AI 及机器学习中实现业务影响的首席执行官及权威


我们的前三大课程推荐

1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。

2. 谷歌数据分析专业证书 - 提升你的数据分析技能。

3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT。


我经常看到一些文章或帖子将数据整合或准备视为数据科学项目面临的关键问题。这总是让我困惑,因为这不是我们的真实经验——在与采用预测分析、机器学习或 AI 的财富 500 强公司合作时,我们并未看到这样的情况。但我想我找出了原因。问题如下:

数据科学家认为的“数据科学项目”实际上不是数据科学项目。

让我用一些来自伟大研究的数据来说明这一点。早在 2016 年,《经济学人信息部》对“断链:为什么分析投资还未见成效”进行了调查,下图显示这些数据似乎支持数据问题是头号问题的论点。

哇——非常清楚,数据整合/准备是最大的问题,报告此问题的项目几乎是下一个问题的两倍。

事实上,这只是调查数据的一个子集。以下是完整的数据集:

数据整合和准备仅排在第 4 位。问题定义/框架、解决方案方法/设计和行动/变更管理的排名都更高。这是我们的经验。

在大型、成熟的“成人”公司中,数据科学项目失败有一个或两个原因:

  • 他们正在解决错误的问题。他们正在构建一种分析工具,但这种工具并不是业务所需的,无法解决真正的业务问题,或者设计得不适合业务环境。

  • 因为他们无法对所构建的模型采取行动。他们不能通过改变决策和采取行动来利用分析工具。

这说明了问题所在。

问题在于数据科学家认为他们的项目从数据开始,到分析结果的沟通结束。如果这是你的关注点,那么数据就是你的首要问题。

但这不是数据科学项目的起点,也不是终点。它们必须以业务为起点和终点。这意味着从一个业务问题开始 - 业务希望改进的业务决策 - 并以该问题得到解决为结束 - 业务行为发生改变(更好)。如果这是你的关注点,那么你的问题不是数据,而是问题定义和操作化 - 使分析工作在现实生活中得以实现。

这是在这些阶段中展示的差异。在左边,是许多数据科学家认为他们的项目涉及的内容;在右边,是实际涉及的内容。

底线:如果你的数据科学团队告诉你数据是他们的首要问题,那么他们就是在做错了。

我之前写过关于这个问题的文章 - 查看这篇关于研究本身的文章以及这篇关于采用决策建模作为更好的方式来定义你的数据科学团队尝试解决的问题。你可能还会喜欢我们最近的白皮书和关于构建分析企业的视频。

原文。经许可转载。

相关:

更多相关主题