原文:
www.kdnuggets.com/2021/12/stop-learning-data-science-find-purpose.html
评论
由 Brandon Cosley, FastDataScience.AI
数据科学家正受到需求的青睐,这毫无疑问。职位薪水丰厚,有大量职位空缺,而且在这个后疫情的数字世界中,行业似乎只会不断增长。因此,数据科学学生成为全球劳动力中一个日益增长的群体也就不足为奇了。但学习数据科学并不容易。事实上,它是困难的,这有几个充分的理由:
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织的 IT 部门
1. 数据科学作为一个职业融合了许多不同的子专业,这些子专业本身就是各自独立的职业,例如数据工程、编程、统计和数据可视化。
2. 行业及相关工具和技术迅速发展,使得确定学习重点变得困难。
3. 在教育环境(如大学、数字教程)中教授的数据科学与企业中使用的数据科学之间存在差距。
4. 由于所需知识的广度非常广泛,很容易对自己有效传达教育价值的能力失去信心。
我记得自己从数据精通的学术研究者转变为行业数据科学专业人士的经历。我接触了所有能找到的教程、博客和 MOOC。我沉浸于行业新闻和趋势中。我把自己装满了知识,但发现学得越多,我意识到自己不知道的东西也越多。我感到压力重重,对自己拥有的技能缺乏信心,面临数据科学面试时总担心遇到“陷阱”,因为我没有花足够的时间在损失函数上。
我曾经用数据科学教育压倒了自己,希望我的广泛接触会引导我找到我的目标,并获得更好的薪水。我当时没有意识到的是,我把车马放在了前面。我太急于学习了,以至于花了所有时间学习各种“东西”,却从未停下来问自己:这些“东西”如何结合起来解决实际问题?
让我告诉你一个显而易见的秘密,大多数企业不关心数据科学的“东西”。大多数企业只关心这些东西是否能解决业务问题。所以这里的难点在于,试图学习所有的数据科学工具,以便你的简历上填满不断扩展的“东西”(Python、R、回归、随机森林、朴素贝叶斯、马尔可夫链、支持向量机、k-means 聚类、XGBoost、卷积神经网络、自然语言处理等等)是徒劳的。
这些“东西”不会引导你找到你的目标,因为你的目标只是由你感受到的价值定义的。你感受到价值的地方就是你允许自己不断发展的数据科学知识被应用于解决问题的地方。能够沟通你如何利用一些数据科学工具来解决问题,会比仅仅列出你在某一课程中接触过的所有算法更有助于你的职业发展。
简而言之,首先找到一个目标。你关心什么?你的热情在哪里?你想解决什么问题?一旦你列出这些问题,选择一个,并考虑你的数据科学知识如何应用于解决与这些兴趣相关的问题。
Pixabay
通过首先找到你的目标,你将以背景知识来进行数据科学教育,你需要学习的工具会感觉不那么压倒性,因为会有更少的工具是适合应用的。
知识、热情以及对问题的理解也会激发你的创造力。创造性的问题解决是将我们对两个或更多不同领域的理解以新颖的方式结合起来。如果我们仅仅在“现成”的数据集和冷漠分配的问题中学习数据科学,我们将无法将多个领域的深度知识相结合。
通过首先找到你的目标,你将迅速了解到解决同一问题的数据科学解决方案有很多种。换句话说,数据科学中很少有绝对对错,更常见的是业务问题可以用多种方式解决。某些解决方案是否比其他解决方案更好?当然。但这并不意味着那些不够优化的解决方案是错误的,而只是它们没有那么好。只要有足够的钱和时间,总是会有“更好”的解决方案,因此最好不要过于纠结于这一点。相反,专注于你拥有的知识如何比之前的知识带来更多的价值,或通过揭示其他方案中未显现的新见解来丰富现有的解决方案。
通过首先找到你的目标,你将解决在大多数数据科学课程中常常没有教授的问题,但这些问题是企业数据科学家每天面临的。例如,找到正确数据的简单问题。大多数数据科学课程不会教你数据发现的价值,但在企业中,数据科学家常常负责发现和整合新的数据集,以进一步实现所收集的数据和聘用数据科学家的价值。以目的导向学习数据科学将迫使你寻找获取与你的问题最相关的数据的方法,它将要求你访问、处理和工程化这些数据,以便适合用于机器学习模型的训练。
最终,通过首先找到你的目标,你将知道如何传达你所建立解决方案的价值。
我的目标是社会正义。我希望利用数据科学的工具和技能生成揭露不公正、提供积极社会变革解决方案的见解,并帮助我们认识到人类偏见的影响。
Pixabay
在我的第一个项目中,我想帮助识别车辆犯罪的高发区域,为第三班工人支持更安全的停车决策。我需要找到本地公共警察报告数据,并将其与其他数据源(如人口普查数据)结合起来。利用我所掌握的数据科学知识,我知道可以构建一个预测模型,以预测汽车发生车辆犯罪(例如盗窃、破坏)的可能性,这取决于周围位置的特征。这个项目使我学会了基本的数据处理,如何推导一些地理空间特征,测试不同的分类模型(如随机森林、逻辑回归和朴素贝叶斯)的准确性,使用 Tableau Public 进行基本的可视化,并设置一个管道,每次警察数据刷新时都能更新仪表板。
我是否还能解决其他问题?当然可以。我是否还有其他工具可以用来解决这个特定问题?绝对有。我是否想出了最好的解决方案,甚至是市场上唯一的解决方案?没有,但我的方案比现有的要好,因为当时什么都没有。
我不仅学习了上述具体工具,还对数据科学过程有了更多直观的理解。我能够更清晰地阐述为什么要用特定的分类模型处理特定的数据类型,并且最重要的是,我能够充满热情地谈论这些工具如何通过结合数百个数据点帮助我做出明智的决策。
现在,当面临新的目标并询问是否有数据科学解决方案来克服与该目标相关的问题时,我不再对自己不知道的东西感到缺乏信心。我利用那个目标来应用我所知道的,解释我的方法,并确定一些新的学习内容,同时自信地知道我能够做到。
简介: 布兰登·科斯利 在数据科学领域拥有超过 15 年的经验。他获得了以定量方法为重点的研究心理学博士学位,并曾担任主要医疗公司数据科学和 AI 总监,联合创办了多家数据科学初创公司,并且在这一领域积极发挥思想领袖作用。2021 年,布兰登启动了 FastDataScience.AI,这是一个支持数据科学教育的不断发展的资源。加入 Facebook 社区 Think Data Science,参与讨论。
原文。转载许可。
相关:
-
为什么机器学习工程师正在取代数据科学家
-
数据科学家和数据分析师有什么区别?
-
如何获得数据科学认证