原文:
www.kdnuggets.com/2017/12/data-science-machine-learning-main-developments-trends.html
数据科学、机器学习、预测分析的主要发展是什么?你期望 2018 年有哪些关键趋势?
主要主题包括人工智能和深度学习——这两者既有实际进展也有炒作,机器学习,安全,量子计算,AlphaGo Zero,等等。阅读 Kirk D. Borne、Tom Davenport、Jill Dyche、Bob E. Hayes、Carla Gentry、Gregory Piatetsky-Shapiro、GP Pulipaka、Rexer Analytics 团队(Paul Gearan、Heather Allen 和 Karl Rexer)、Eric Siegel、Jeff Ullman 和 Jen Underwood 的观点。
还可以阅读大数据:2017 年的主要发展及 2018 年的关键趋势和去年的预测。
有不同的观点?在文章末尾评论。
Kirk D. Borne, @KirkDBorne,BoozAllen 首席数据科学家,博士天体物理学家。顶级数据科学和大数据影响者。
2017 年我们看到大数据让位于人工智能成为技术炒作周期的中心。这种对人工智能的过度媒体和从业者关注包括了正面消息(越来越强大的机器学习算法和人工智能应用于众多行业,包括汽车、医学影像、安全、客户服务、娱乐、金融服务)和负面消息(机器威胁到我们的工作和接管我们的世界)。我们还见证了围绕数据的价值创造创新增长,包括更大规模的 API 使用、即服务产品、数据科学平台、深度学习以及主要供应商的云机器学习服务。数据、机器学习和人工智能的专业应用包括机器智能、规范分析、旅程科学、行为分析和物联网。
在 2018 年,我们应看到超越人工智能炒作的趋势。将是验证人工智能价值、衡量其投资回报率并使其可操作的时候。我们将看到这些发展领域与 2017 年的重点领域没有太大不同,包括流程自动化、机器智能、客户服务、超个性化和劳动力转型。我们还将见证物联网的成熟度增长,包括更高的安全特性、模块化平台、访问传感器数据流的 API 和边缘分析接口。同时,我们可能会看到数字双胞胎在制造、公共事业、工程和建筑行业变得更加主流。我还相信,在 2018 年,将有更多从业者迎接挑战,向怀疑的公众传达人工智能的积极益处。
汤姆·达文波特,是巴布森学院的 IT 和管理学杰出教授,国际分析学会的共同创始人,麻省理工学院数字经济倡议的研究员,以及德勤分析的高级顾问。
2017 年的主要发展:
-
企业人工智能进入主流: 许多大型、成熟的公司正在进行人工智能或机器学习项目。一些公司有超过 50 个使用各种技术的项目。这些大多是“低垂的果实”项目,目标相对有限。趋势是远离拥有“变革性”产品的大型供应商,转向开源、自己动手类型的项目。当然,这意味着公司必须招聘或培养高水平的数据科学技能。
-
机器学习应用于数据集成: 数据分析和管理中最古老的挑战现在正通过机器学习得到解决。集成和整理数据的劳动密集型方法正被“概率匹配”技术所取代——或至少被增强——通过对不同数据库中的相似数据元素进行匹配。这个工具的使用——通过工作流和专家众包来增强——可以将数据集成的时间减少十倍。
-
保守型公司接受开源: 传统上保守的公司,如银行、保险和医疗行业的公司,如今正积极接受开源分析、人工智能和数据管理软件。一些公司积极鼓励员工避免使用专有工具,而其他公司则让个人自由选择。成本是转变的一个原因,但性能的提升和吸引最近大学毕业生更为普遍。
2018 年的发展:
-
我们已经进入了“后算法”时代:历史上,分析师和数据科学家需要对使用何种算法有相当的了解。但分析和机器学习过程的自动化使得可以考虑一百种或更多不同的算法。重要的是模型或模型集合的表现如何。这当然促进了“公民数据科学家”的崛起。尽管这种发展可能最终会有一些令人担忧的故事,但目前还没有出现。
-
独立 AI 初创公司的吸引力开始减弱: 在风险资本资助的刺激下,过去几年成立了数百家 AI 初创公司。大多数解决相对狭窄的问题。然而,即使它们有效,集成到现有的流程和系统中仍然是大多数组织的主要挑战。因此,成熟的公司更倾向于开发自己相对易于集成的 AI“微服务”,或从那些将 AI 内容嵌入其交易系统的供应商那里购买。
吉尔·迪奇、@jilldyche,SASBestPractice 的副总裁。畅销商业书籍作者。
现在几乎每个人和他们的兄弟都有人工智能或机器学习的产品。2017 年证明了亮眼的新物品被重新打磨,许多供应商——其中许多甚至不是我所谓的“AI 邻近”——准备好擦亮和展示他们的产品集。讽刺的是,由于其新颖性,许多这些供应商可能会超越已有的产品。
2018 年将会看到更多关于 AI/ML 的商业对话和使用案例。为什么?因为管理者,大多数是有问题要解决的商业人士,不在乎神经网络是否在稀疏数据上挣扎。他们对自然语言处理中的词汇推理挑战不感兴趣。他们想要加速供应链,知道客户将会做什么/购买什么/说什么,并且仅仅告诉计算机他们想知道什么。这是大规模的处方分析,能够以最小的采用摩擦来提供这些服务的供应商可以主宰世界。
卡拉·根特里,Analytical Solution 的数据科学家, @data_nerd。
2017 年是大家开始讨论机器学习、人工智能和预测分析的年份,不幸的是,许多这些公司/供应商只是“追逐流行词”,并没有真正的背景去实现他们所宣传的……如果你查看任何上述提到的“热门话题”在 Twitter 上的讨论,你会发现一堆来自去年谈论社交媒体营销的同一群人的帖子!这些领域的经验需要时间和才能,而不仅仅是“行动号召”和流行词……如常所说,经验确实重要!
我认为 2018 年是我们关注数据科学和预测分析领域领导者的一年,这不仅仅是因为它很流行,而是因为它能对你的业务产生巨大的影响。预测招聘可以节省数百万的人员流动成本;人工智能和机器学习可以在几秒钟内完成你以前需要几天的工作!我们同意技术可以带我们达到新的高度,但也要记得做一个有良知的人。作为数据科学家或算法编写者,你有责任避免造成伤害,无论是法律上的,还是在人性和伦理实践上的,要保持透明和公正。
Bob E. Hayes @bobehayes,研究员和作家,《Business Over Broadway》的出版者,拥有工业-组织心理学博士学位。
数据科学和机器学习能力的实践正被越来越多的行业和应用所采纳。
在 2017 年,我们见证了人工智能能力的重大进展。虽然之前的深度学习模型需要大量数据来训练算法,但神经网络和强化学习的使用表明,创建高性能算法不再需要数据集。DeepMind 运用了这些技术,并通过自我对弈创建了 Alpha Go Zero,这一算法超越了之前的算法。
随着人工智能在刑事司法、金融、教育和工作场所等领域的持续增长,我们需要为算法建立标准,以评估它们的准确性和偏差。对人工智能社会影响的关注将继续增长(见这里和这里),包括制定人工智能可以使用的规则(例如,避免“黑箱”决策)以及理解深度学习算法如何做出决策。
即使在互联网时代诞生的公司(例如 imgur、Uber)中,安全漏洞也将继续上升。因此,我们将看到对安全方法进行彻底改革的努力,增加区块链(一个虚拟账本)的可见性,作为改善公司如何保护其客户数据的可行方式。
Gregory Piatetsky-Shapiro,KDnuggets 的总裁,KDnuggets的创始人,数据科学家,KDD 会议和 SIGKDD 的联合创始人,知识发现和数据挖掘的专业组织。
2017 年的主要发展:
-
数据科学的自动化程度不断提高,更多工具提供自动化机器学习平台。
-
人工智能的炒作和期望的增长速度甚至超过了人工智能和深度学习的成功增长。
2018 年的关键趋势
-
GDPR(欧洲通用数据保护条例)于 2018 年 5 月 25 日生效,将对数据科学产生重大影响,其要求包括解释权(你的深度学习方法能否解释为什么这个人被拒绝了信用?)以及防止偏见和歧视。
-
谷歌 DeepMind 团队将跟进 AlphaGo Zero 的惊人成果,并在一个几年前许多人认为计算机无法完成的任务上取得另一个超人类表现。
(注意:下一个 DeepMind 的突破发生在 2017 年 12 月,AlphaZero在仅 4 小时内掌握了国际象棋,该自我学习程序在国际象棋、围棋和将棋中达到了超人类表现。)
-
我们将看到更多的自动驾驶汽车(和卡车)进展,包括首次出现的问题(如拉斯维加斯的自动驾驶班车不知道要让路)被解决(下次它会让路)。
-
人工智能泡沫将继续,但我们将看到震荡和整合的迹象。
Dr. GP (Ganapathi) Pulipaka, @gp_pulipaka 是 DeepSingularity LLC 的首席执行官兼首席数据科学家。
机器学习、深度学习、数据科学发展,2017 年
-
AlphaGo Zero 引入了一种新的强化学习形式,其中 AlphaGo 成为自己的教师,无需人工干预和历史数据集。
-
Python(1.65 M GitHub 推送)、Java(2.32 M GitHub 推送)和 R(163,807 GitHub 推送)是 2017 年最受欢迎的编程语言。
-
在 CPU 上处理大规模大数据以执行神经网络功能可能会在长期内带来巨大的能源成本。谷歌发布了第二代 TPU。TPU 的精密设计工程包括将协处理器附加到常见的 PCIe 总线,并附有处理流量的指令,使用乘法累加器(MACs)重用寄存器中的值进行数学计算,并节省数十亿美元的能源。
-
Nvidia 发布了基于 Volta 架构的 Tesla GPU,用于超级充电深度学习和机器学习,每个 GPU 的峰值性能达到 120 万亿次浮点运算。
-
从 D-Wave 量子退火计算机的炒作中脱身,转向具有 20 量子比特能力的量子计算机,使用 QISKit 量子编程栈在 Python 中进行编程。
机器学习、深度学习、数据科学趋势 - 2018 年。
-
McAfree Labs 2018 年的威胁研究报告显示,对抗性机器学习将用于网络入侵检测、欺诈检测、垃圾邮件检测和恶意软件检测,在无服务器环境中以极高的机器速度进行。
-
HPE 将开发点积引擎,并推出自己的神经网络芯片,用于高性能计算,支持来自深度神经网络、卷积神经网络和递归神经网络的推理。
-
量子机器学习的未来依赖于具有 10 个或更多状态和 100 多个维度的量子比特,而不是只能采用两种可能状态的量子比特。将制造出大量带有量子比特的微芯片,从而创造出极其强大的量子计算机。
-
2018 年物联网和边缘计算与机器学习的障碍将降低。地理空间智能将在应用于手机、RFID 传感器、无人机、无人机和卫星的突破性算法的推动下跃升。
-
自我监督学习和自主学习将为机器人提供动力,采用新颖的深度学习技术进行控制任务,使机器人能够与其周围的地面环境和水下环境进行交互。
Paul Gearan、Heather Allen 和 Karl Rexer,Rexer Analytics的负责人,该公司是一家领先的数据挖掘和高级分析咨询公司。
尽管商业智能软件的普及和有效使用仍面临许多障碍,但对于没有研究或分析背景的人来说,这一承诺仍面临许多困难。虽然像 Tableau、IBM 的 Watson、Microsoft Power BI 等软件已经取得了一些进展,但根据 Rexer Analytics 在 2017 年收集的数据,仅有略超过一半的受访者表示自助工具正在被数据科学团队之外的人使用。当这些工具被使用时,大约 60%的时间会报告遇到挑战,最常见的主题是对分析过程的理解失败和结果的误解。
对于 2018 年,实现这些“公民数据科学”工具的承诺,以扩展分析的使用和力量,产生有效且有意义的结果至关重要。正如我们经验所示,综合多学科团队的方法仍然是最佳选择:为没有数据分析训练的员工和高管提供探索和可视化假设的工具很重要。但同样重要的是,团队要与经过专业训练的数据科学专家一起开发模型和解释结果,以理解特定分析技术的应用和局限性。
Eric Siegel, @predictanalytic,预测分析世界会议系列创始人。
在 2017 年,机器学习中的三个高速趋势持续全速前进,我预计它们在 2018 年也会如此。其中两个是积极的,另一个则是玫瑰的不可避免的刺:
1) 机器学习的商业应用在各个行业中的采纳范围持续扩大 —— 例如在市场营销、金融风险、欺诈检测、员工优化、制造业和医疗保健等领域。要一目了然地了解这些广泛的活动范围以及哪些领先公司正在实现价值,请查看预测分析世界 2018 年 6 月拉斯维加斯会议,这是首个“Mega-PAW”以及全美唯一的 PAW 商业会议。
2) 深度学习蓬勃发展,无论是热度还是实际价值。 这套相对新的先进神经网络方法将机器学习提升到一个新的潜力层次——即在大信号输入问题上实现高性能,如图像分类(自动驾驶汽车、医学图像)、声音(语音识别、说话人识别)、文本(文档分类),甚至是“标准”业务问题,例如,通过处理高维点击流。为了推动其在各行业领域的商业化部署,我们将推出深度学习世界,配合 PAW Vegas 2018。
3)不幸的是,人工智能仍然被过度宣传和“过度神化”(这个双关语归功于模型机构的埃里克·金 :)。虽然专家从业者有时使用术语 AI 特指机器学习,但分析供应商和记者更常用它来暗示那些明显不切实际的能力,并培养更多幻想而非现实的期望。正如亚瑟·C·克拉克曾经著名地提出,“任何足够先进的技术都与魔法无异”,但这并不意味着我们想象或在科幻小说中包含的任何“魔法”都可以或将被技术实现。你的逻辑是倒置的。人工智能将拥有自己的意志,可能会恶意或鲁莽地对人类构成生存威胁,这是一种鬼故事——这种鬼故事进一步推动了机器的拟人化(甚至是神化),许多供应商似乎希望这能提高销售。朋友们、同事们和国人们,我敦促你们减少对“人工智能”的关注。这只会增加噪音和混乱,最终会引发反弹,就像所有“虚幻软件”销售一样。
杰夫·乌尔曼,斯坦福大学 W·阿施曼计算机科学荣誉教授。他的研究兴趣包括数据库理论、数据库集成、数据挖掘以及利用信息基础设施的教育。
最近我参加了一次会议,与我的两位最老的同事约翰·霍普克罗夫特和阿尔·阿霍重聚。(编辑:见经典教科书数据结构与算法,作者:阿霍、霍普克罗夫特和乌尔曼)。在我的演讲中,我没有什么新内容,但阿尔和约翰都在关注一些可能对 KDnuggets 读者真正感兴趣的事情。
约翰(霍普克罗夫特)谈到了深度学习算法的分析。他做了一些实验,观察了在不同顺序下对相同数据进行系列训练时网络节点的行为(或类似实验)。他发现了在每个生成的网络中,某些节点基本上做着相同的事情的情况。还有其他情况,其中无法将节点与节点映射,但一个网络中的小组节点与另一个网络中的另一个节点组产生相同的效果。这项工作还处于起步阶段,但我认为可能会在明年继续保持的一个预测是:
对深度学习网络的细致分析将推进对深度学习如何真正工作的理解,以及其用途和陷阱。
然后,Al Aho 谈到了量子计算。许多全球最大的公司,如 IBM、微软、谷歌,都在投入大量资金建设量子计算机。对于这些设备有许多不同的方法,但 Al 兴奋的是他的前学生在微软的工作,他正在开发一套编译器和模拟器,用于设计量子算法并进行测试,虽然不是在一个真正存在的机器上,而是在模拟器上。这让我想起了 1980 年代的集成电路设计工作。当时我们也有从高级语言到电路的编译器,这些电路先是被模拟,而不是制造(至少在最初是这样)。这种方法的优势在于你可以尝试不同的算法,而不需要花费巨大的物理电路制造费用。当然,在量子世界中,这不仅仅是“缓慢且昂贵”,而且可能“根本不可能”,我们目前还不知道。Al 实际上和我一样对量子计算是否很快实现持怀疑态度,但毫无疑问资金将会投入,算法将会设计。例如,Al 指出去年在更高效的量子算法用于线性代数方面取得了有趣的进展,如果实现,这肯定会引起数据科学家的兴趣。所以这是另一个预测:
量子计算,包括数据科学中的算法,将在未来几年受到更多关注,即使真正能够在足够大规模下运行的量子计算机从未实现或还需要几十年。
我会再添加一个我自己更平凡的预测:
- 从 Hadoop 迁移到 Spark 的趋势将继续,最终导致人们几乎忘记 Hadoop。
Jen Underwood、@idigdata、Impact Analytix, LLC 的创始人,是一位公认的分析行业专家,拥有产品管理、设计和超过 20 年的“动手”数据仓库、报告、可视化及高级分析解决方案开发经验。
当我回顾 2017 年时,我会温馨地记住那一年智能分析平台的出现。从分析机器人到自动化机器学习,数据科学的各个方面都出现了大量复杂的智能自动化能力。数据集成和数据准备平台已经变得足够智能,可以即插即用数据源,在数据管道出现错误时自行修复,甚至根据从人类互动中学到的知识自行管理维护或数据质量任务。增强分析产品开始兑现将机器学习普及的承诺。最后,拥有预打包的最佳实践算法设计蓝图和部分自动化特征工程能力的自动化机器学习平台在数字时代的分析武器库中迅速成为游戏规则改变者。
明年我预计自动化人工智能将在更多的分析和决策过程中无缝整合。随着组织的适应,我预计会出现大量关于如何做出自动化决策的问题,以及如何在我们不完美的世界中负责任地引导这些系统。即将到来的欧盟通用数据保护条例合规截止日期将进一步提高我们需要打开分析黑箱、确保正确使用并尽职管理个人数据的需求。
相关内容: