一个数据科学负责人眼中的数据科学:太无聊了!

2019-09-16 SKY 互联网
浏览

笔者按,数据科学家的工作是否如你想象一般,每天建模型,调整参数,充满了乐趣和挑战?在 Dessa 的数据科学负责人 Ian Xiao 看来,或许并非如此。他认为,数据科学家的工作往往是非常「无聊的」,在决定踏上这条道路之前,我们必须对此做好心理准备,建立自己的应对机制。以下是他的全文。

一个数据科学负责人眼中的数据科学:太无聊了!

Julian Howard 在 Unsplash 上的照片

TLDR:很多人选择数据科学(或机器学习)中令人兴奋的东西来激励自己和他人。但我们必须面对一个现实:真正的工作往往是「无聊的」——与人们认为浪漫的东西相比是无聊的。感到无聊会造成紧张,它最终会导致数据科学领域工程师的高流动性。我想和大家分享我的实际工作以及如何应对「数据科学的枯燥」。我希望能帮助你——一个有抱负的数据科学家,去设定正确的期望。所以,一旦你决定从事数据科学的职业,你就要长期从事这项工作。享受它吧!

分享你的方法?我想强调的是,每个人都需要有一个应对机制。花 2 分钟告诉我你的故事,也许接下来我们可以分享我们各自的应对方式,应该很有趣。

1.故事时间

我年轻英俊的表弟 Shawn 最近来到了加拿大,他来这里攻读计算机科学硕士学位。和许多学生一样,Shawn 对机器学习很有热情,他想在两年后毕业时成为一名数据科学家(或从事任何与 ML 有关的作)。

一个数据科学负责人眼中的数据科学:太无聊了!

作为一个真正关心 Shawn 前途的哥哥,我决定分享从我的数据科学生涯中学到的最谨慎的知识——这不是《哈佛商业评论》所描述的「21 世纪最性感的工作」,它枯燥乏味,令人筋疲力尽,令人沮丧——就像其他职业一样。

我有义务告诉 Shawn 真相,即使真相令人失望。这将有助于他对自己的职业选择做出明智的决定(更重要的是,我将避免凌晨 3 点接到我母亲和叔叔的电话,他们肯定会给我上关于家庭、责任和诚实的课)。

一个数据科学负责人眼中的数据科学:太无聊了!

作为一个聪明、自驱、充满好奇的年轻人,Shawn 想让我详细说明「无聊」具体指的是什么,于是我写下了这篇文章。

此外,我们还讨论了 ML 的主要趋势,以及如何在这个领域脱颖而出。我将在一些后续文章中分享这一点。如果你感兴趣,请接着往下看。

2.设置一些上下文

作为一名数据科学经理,我正在财富 100 强企业带领团队部署 ML 系统,管理客户关系,并做一些技术工作。

这里先谈谈一些更重要的定义。ML 系统是一种解决业务领域问题的解决方案,它有一个 ML 组件,并且具有与人类或机器一起工作所需要的所有其他非 ML 系统内容。

部署意味着获得驱动实际业务操作的解决方案。例如,设置用于训练和验证 ML 模型的实验不是部署;设置通过电子邮件发送每月产品报价的推荐引擎是部署。部署 ML 系统面临的问题与构建一个好的 ML 模型截然不同。如果你感兴趣的话,可以在这里阅读更多内容。

也就是说,我指的不是那些加入谷歌(google)或其他高科技公司,成为初级开发人员和技术经理的人。这些公司确实做得很好,但我认为它们只代表「前 1%」。其他财富 100 强企业往往在技术成熟度、应用速度以及对工具和工程人才的投资方面落后。

3.让我们开始吧

简而言之,当我说数据科学很无聊时,我指的是当人们意识到浪漫的期望和现实之间的差距时的那种压抑感。

一个数据科学负责人眼中的数据科学:太无聊了!

大多数年轻的数据科学家希望把大部分时间花在构建和改进神秘的 ML 模型上,或者将时间花在用绚丽的可视化技术展示开创性的商业见解上。当然,这些确实是你工作的一部分。

但是,随着企业成熟度的提高,他们更加注重实际的经营价值。这意味着企业希望部署更多的 ML 系统;他们不太关心他们有多少新模型或漂亮的报表。因此,数据科学家被要求做非 ML 工作。这让他们感到很无聊。

让我们进一步具体化数据科学中的「无聊」是什么样子,如果我给你展示我从周一到周五的典型一天,你将发现那是非常无聊的。因此,我将把我的工作分类,突出展示预期与现实的对比,并分享我的应对机制。

我将使用「我们」为主语,因为这些例子是从和团队的经验集合中提取的。这些例子可能并不详尽,但我认为它们会说明问题。

3.1设计(占据 5-10% 的时间)

这指的是我们整个集体一起努力获得「高」智力来解决问题和提出高明的想法。这些想法可以包括新的模型架构、数据特性和系统设计等。很快,我们就会陷入低谷,因为由于时间限制和优先级的原因,我们需要采用最简单(通常也是最无聊)的解决方案。

期望:我们实现的想法,可以在著名的 ML 期刊,如 NIPS,谷歌的人工智能研究博客等上面刊登,甚至可能赢得下一个诺贝尔奖。

现实:我们执行的事情能很好地完成工作。我们为一些值得装帧的漂亮白板画拍照。

一个数据科学负责人眼中的数据科学:太无聊了!