Skip to content

Latest commit

 

History

History
221 lines (111 loc) · 19.8 KB

19-data-science-project-ideas-beginners.md

File metadata and controls

221 lines (111 loc) · 19.8 KB

适合初学者的数据科学项目创意

原文:www.kdnuggets.com/2021/11/19-data-science-project-ideas-beginners.html

Zulie Rane,自由撰稿人和编码爱好者

适合初学者的数据科学项目创意


我们的前三个课程推荐

1. Google 网络安全证书 - 快速进入网络安全职业生涯。

2. Google 数据分析专业证书 - 提升你的数据分析技能

3. Google IT 支持专业证书 - 支持你的组织在 IT 方面


数据科学项目是初学者掌握一些基本的数据科学技能和语言的好方法,这些技能和语言对于将数据科学作为爱好或职业是必需的。教程、课程和视频都很棒,但项目真正作为涉及数据科学的垫脚石,让你开始动手实践。

对初学者来说,数据科学项目更适合学习语言和技能,因为这些项目更具黏性。我可以观看关于学习 Python 的视频 10,000 次,但只有在我亲自做一个项目时,我才真正开始理解 Python。数据科学项目很棒,因为你比仅仅观看在线教程更有个人投资。你在项目中投入了自己,就会更有动力去完成它。

一个好的项目可以是从学习如何导入数据集到创建你自己的网站或更复杂的东西。项目可以是个人的,它们帮助你学习;它们还可以作为一个作品集,证明你确实了解你所谈论的内容。

这篇文章将提供 19 个适合初学者的数据科学项目创意。选择一个或全部 - 不管哪个对你来说最有趣。让我们开始吧。

适合初学者的数据科学项目教程

这七个数据科学项目包括视频和文章,涵盖了不同的编程语言,具体取决于你想学习什么。你将学习如何使用 API,如何进行预测,接触深度学习,并研究回归分析。

这七个适合初学者的项目教程非常具体且实用,如果你想入门但不知道从哪里开始,这些教程非常适合你。选择一个你喜欢的,看看你遇到的困难,并利用这些困难来开始建立其他的data science skills

项目 1: 房价回归分析

在疫情期间,我发现自己花了很多时间在 Zillow 上。我喜欢查看各种不同的房屋,因为它们充满了数据。我可以调查和沉浸在许多不同的方面。这种奇怪的兴趣让我发现了this tutorial,它允许你预测爱荷华州艾姆斯的房屋最终价格。

听起来很奇怪,但却很有趣。

你可以使用 R 或 Python 来完成这个项目。老实说,这个项目是一个雄心勃勃的任务,特别是对于刚刚开始编程的人来说。但我选择从这个项目开始,因为我认为它回答了很多人关心的问题——房子值多少钱?人类本质上是好奇的,而最好的数据科学项目就是利用这种好奇心来教授你技能。

我喜欢 Kaggle 上的这个教程,因为它有很多完成的不同选项,这些不同的解决方案与社区共享。任何人都可以上传自己的代码,因此这是一个学习和借鉴他人代码的好地方(这实际上是学习编程的最佳方式之一)。

参与预测、一些机器学习和回归分析吧。

项目 2:泰坦尼克号分类

世界上最著名的悲剧之一是泰坦尼克号的沉没。船上没有足够的救生艇,导致超过 1500 人遇难。不过,如果你查看数据,会发现某些群体的幸存可能性更高。

与上面的项目相同的网站 Kaggle,运行了this competition。他们试图找出哪些因素最可能导致成功——社会经济地位、年龄、性别等等。与房价项目类似,这个项目可以访问许多其他程序员的代码,你可以从中学习。他们还有一个专为初学者准备的教程。这对于初次接触 Kaggle 和编程的人非常有用。

最终,你将建立一个能够回答这个问题的预测模型。我推荐使用 Python 来完成这个任务。

无论你是否实际参与比赛,这仍然是一个很棒的初学者数据科学项目。

项目 3:深度学习数字识别

你知道计算机可以“看见”吗?许多最新有趣的数据科学项目都与计算机视觉有关。本教程非常适合教授神经网络和分类方法的基础知识。在教程中,你的任务是从数万张手写图像的数据集中正确识别数字。

这个比赛/教程也是由 Kaggle 主办的——你可以查看他们的一些教程,或者直接使用用户提交的代码

在我看来,这个项目不如 Titanic 或房价教程有趣,但它会教你一些非常复杂主题的基础知识。而且,能够教会计算机“看”东西确实很奇妙。

项目 4:YouTube 评论情感分析

不要阅读评论! ...除非你正在做一个初学者的 YouTube 评论情感分析数据科学项目。

这个 YouTube 评论情感分析教程非常好,因为它确实是为初学者准备的。该视频教程的创作者是自然语言处理的初学者,你将在这个教程中学习这种技能。这是一个大约 14 分钟的非常酷的视频,适合开始学习 NLP。它也是一个很好的示例,展示了数据科学项目如何以一种良好的方式发展起来。

这个视频非常有趣,她在自己的GitHub中链接了代码。欢迎你自己去研究!

项目 5:COVID-19 数据分析项目

在疫情期间,我感觉事情失去了控制。听起来可能很傻,但我用来稳定自己的一个方法就是记录每日数字。有时候这让我感到压力,但我发现自己依赖数据来理解那些难以想象的事情。

Python Programmer 频道有类似的想法。在这个教程中,他教你如何使用 Python 进行 COVID-19 数据分析。

这个视频教程比之前的更严肃一些,内容也更加深入地讲解了如何实现。他还介绍了一些关键的 Python 包,如 pandas。这是对 pandas 和 Python 的一个非常清晰的介绍。

项目 6:爬取 Instagram 评论

互联网上有大量的信息。以上的大多数教程给了你一些数据集来操作,但有时知道如何寻找和使用自己的数据是很有用的。这就是掌握网络爬虫的地方。还有,也许你对 YouTube 评论或 COVID-19 数据并不特别感兴趣,但 Instagram 才是你的最爱。

官方的 Instagram API 允许你以编程方式访问自己的评论。但不允许你对其他人的进行。如果你像我一样,想查看别人发布的帖子,获取带有特定#的帖子列表或爬取其他人的评论,你需要别的工具——一个爬虫。

这篇文章实际上不算是教程,更像是针对你自己项目的指引,但我喜欢 Apify 作为 Instagram 抓取工具。通过这个工具,你可以获取数据并探究自己的问题。某些标签是否获得更多点赞?标题是否引发更多评论?一切皆有可能。

项目 7:使用 Python 的 YouTube API

说到 API,使用 API 是所有数据科学家的必备技能。当你选择项目时,确保至少有一个项目能教你如何使用 API,以确保你掌握了这一关键技能。

这个教程使用 Python 带你完成一次 API 调用,从一个频道收集视频统计信息,并将其保存为 pandas 数据框。它还提供了 Python 笔记本代码和 GitHub 上的附加资源。

5 个初学者 DIY 数据科学项目创意 [无限的数据科学项目创意]

实际上,有数百万个潜在的数据科学项目,我已经在教程和视频中记录了它们。但了解如何创建自己的项目也很有用。其他项目教程通常会谈论其他人希望做的事情——考虑一下你自己想做什么。

自己提出项目是我最初接触 Python 的原因。我有一个问题,需要一个答案,而唯一的办法就是通过 Python 分析数据。与其列举更多的单独教程,我更想给你推荐一些资源,帮助你从零开始设计自己的数据科学项目。

项目 8:Tidy Tuesdays

这个项目依赖于Tidy Tuesday GitHub repo。这个 repo 的一个优点是每周二,都会上传全新的非结构化数据。团队分析、可视化这些数据,并进行各种实验。这是从他人那里学习和自己动手实验的绝佳场所。

这个 repo 最适合想学习 R 的人(虽然对一些 Python 也很有用)。它也很适合基础的数据科学技能,如读取文件、进行初步分析、可视化和报告。

例如,本周的 Tidy Tuesday 数据集来自国家经济研究局。数据集的结构使得学习如何连接表格非常有用。也许你对检查女性作者的代表性感兴趣,也许你想知道夏季与冬季的出版频率。无论如何,TidyTuesday 每周提供新的数据,帮助你掌握一些基础的数据科学技能。它也有多年的历史,因此你可以找到感兴趣的内容,并且不会缺乏数据科学项目的想法。

项目 9:Pudding

The Pudding 做了非常炫酷的可视化和分析,通常使用 JavaScript、Python 或 R。TidyTuesday 适合处理大量数据,但 The Pudding 提供了一些真正奇特的项目。

也许你像我一样是《社区》的超级粉丝,你想知道Abed 说“Cool”的次数,相比之下 Jeff 或 Annie 说的次数。也许你喜欢阅读“痛苦的姑姑”信件,这个见解探讨了三十年美国焦虑的内容,可能会引起你的兴趣。

这些项目提供了很多文化评论。它们比列表上的其他一些项目更具挑战性和小众,但它们引人入胜,尤其能教会你很多关于可视化的知识。The Pudding 在他们的GitHub 仓库上提供了所有代码,建议你去看看。

项目 10: 538

体育与政治在 538 博客中碰撞,汇聚成一场辉煌的统计与数学盛宴。在这里,你可以浏览文章,找到你感兴趣的内容,然后前往GitHub 仓库查看发现背后的代码和分析。之后,你可以自己深入数据。

我曾经花时间挖掘的一个有趣项目是超级碗广告。原文讨论了美国人对美国、动物和性(通过超级碗广告中的频率表示)的热爱。我对这些年来是否有更多性相关的广告感兴趣。找到你自己的问题,深入挖掘吧!

项目 11: NASA

谁小时候不想成为宇航员呢?现在(有点)是你追逐那个梦想的机会了。

NASA 的数据不像我列出的前三个选项那样用户友好。但这里提供的数据量(和总体的酷炫程度)使它成为任何数据科学项目列表的必备之选。与其尝试翻阅他们的繁杂文献和数据库,我建议你从这个“用 Python 进行太空科学''教程系列开始。例如,想知道小行星 1997BQ 在 2020 年 5 月离地球有多近吗?现在是了解的机会

项目 12: Tate 博物馆

Tate 博物馆 (shardcore.org/tatedata/)

也许你更喜欢艺术与人文学科。幸运的是,你也可以创建自己的数据科学项目。只需查看Tate 博物馆的数据档案。在这里,你可以找到超过 3500 位艺术家的元数据。

你可以自己对数据做很多事情,但如果你已经迷失在不知道从哪里开始的情况下,Tate 提供了一些有用的示例数据科学项目,你可以参考。例如,Florian Kraeutli 做了一些gorgeous and introductory exploratory analysis你可以查看。

7 个基于技能的数据科学项目

这篇博客文章的第一部分涉及了相当具体的教程。第二部分教你如何寻找自己的数据科学项目创意。最后一部分将引导你找到基于技能的数据科学项目创意。这对那些准备制作简历或考虑申请data science job的人最为相关。

这七个步骤中的每一个都值得作为初学者的数据科学项目,但一旦你准备好了,你还可以使用这七个步骤来创建一个更完整的项目,适用于中级/高级数据科学家。

项目 13:收集数据

任何数据科学项目的第一步都值得成为一个数据科学项目:收集数据。

大多数时候,数据不会完美地以整齐的表格形式到达你的计算机。你必须弄清楚如何将其从 A 点移动到 B 点,以便进行其他操作。

将其转化为一个项目,并调查如何使用一些最流行的数据科学语言,如 Python 和 SQL 来收集数据。这里有一个很棒的教程文章,讲解如何使用 Python 进行数据抓取。

项目 14:清理数据

数据到了!但却很凌乱。学习如何清理数据是我在攻读鸟类保护硕士学位时最大的失望之一。我以为可以直接导入数据并开始分析。不幸的是,出现了问题:重复数据、缺失值、数字以文本形式存储,以及几乎所有你能想到的其他问题。

一些人说清理数据占数据科学家工作的 80%。值得掌握这一技能。

我使用 R 进行项目,因此如果你也是这样,我推荐 this tutorial 来学习如何使用 R 加载和清理数据。如果你是一个正在学习 Python 的初学者, this tutorial 帮助我掌握了使用 Pandas 和 NumPy 清理数据的方法,这两个都是非常常见和实用的 Python 包。

项目 15:探索数据

一旦你的数据已经准备好并且相对整洁,就到了令人兴奋的部分:探索你的数据。这还没有达到可视化或分析的水平。通常情况下,你所查看的数据量很大,所以在开始创建模型之前,了解实际情况有助于你对数据有一个初步的了解。可以把这个项目想象成在水中试探温度。

这个 2.5 小时的视频教程将教你如何从头开始构建一个探索性数据分析项目。它内容丰富且 100%全面。

项目 16:数据可视化

可视化数据有很多方法,数据科学技能的一部分就是知道哪种可视化最能代表你想传达的想法。这就是为什么专注于数据可视化是初学者的一个很好的数据科学项目创意。

这个 Kaggle 教程有点无聊,但会教你一些数据可视化的基础知识。掌握这些知识后,你可以创建自己的数据科学可视化项目——这次使用你关心的数据。

项目 17:回归

回归是数据科学各个领域中一个非常重要的预测工具。它帮助你统计性地确定 X 和 Y 之间的关系。它是机器学习的基础。

你可以创建一个专注于回归的项目,使用任何具有 X 和 Y 变量的数据集。我自己就是用鸟类数据做的,预测鸟的大小是否会影响鸟的生存。选择任何你喜欢的数据集,使用像 Kaggle 的红酒质量数据教程这样的回归方法,链接 这里

项目 18:统计学概论

很容易被 NLP、ML、AI、DL 以及其他所有数据科学缩写的炒作所吸引。但不要忘记,各种数据科学都依赖于统计学和数学。为了从你可能拥有的任何数据科学项目创意中获得最大收益,确保你已经掌握了支撑数据科学概念的统计学基础。

我稍微有点作弊,把所有这些统计基础知识归纳在一个子标题下,但我推荐 KDNuggets 的八个基本统计概念的列表。从那里找到一个专注于这八个概念的项目。例如,拿上面链接的 Tate 数据集,了解“集中趋势”,通过确定艺术作品的中位数创作日期来学习。

你可以使用任何编程语言来完成这个项目。我喜欢 Python,因为它对初学者非常友好,但 R、SQL、JavaScript 或其他任何编程语言都可以实现相同的目标。

项目 19:机器学习

让我们用一个项目创意来总结这个初学者数据科学项目列表:机器学习。任何一位称职的数据科学家都了解机器学习,并能够成功预测各种事物。运用你从回归分析中学到的知识。

要创建一个能教你机器学习的项目,几乎任何数据集都可以。例如,你可以使用 Uber 的接送数据,并提出这样的问题:Uber 是否加剧了拥堵?另外,这个教程指导你如何制作电影推荐,可能也是一个很好的项目。我推荐使用 Python,因为它的 TensorFlow 包专为机器学习而设计。

初学者的数据科学项目创意是无限的

如果你拥有一丝创造力和好奇心,你可以在网上搜索所需的数据和教程,创建你自己独特的数据科学项目,无论你的兴趣或技能水平如何。本文应该作为一个指示牌,指向你可以随意浏览的潜在选项。

Zulie Rane (网站) 是一名自由撰稿人和编程爱好者。

原文。经许可转载。

更多相关内容