这是一篇经验帖,作者 Daniel Shenfeld 曾在 12 家创业公司工作过,这些公司覆盖金融科技、医疗、教育技术、生物技术等多个领域,所处的阶段也各有不同,从种子前(pre-seed)到收购后都有。Daniel 在不同的公司中担任各种各样的职位,从基层员工到数据科学主管和战略顾问主管都做过。在所有工作中,他一直致力于研究有趣的机器学习和数据科学问题。所有人都试图创造伟大的产品,一些人确实成功了。
从这么多工作经历中他学到了什么?本文介绍了他对产品、数据和人才的 8 条经验。
关注产品,而非 AI
作为货真价实的数学家,我一开始是被机器学习科学打动的,想创建新的算法和方法来解决挑战。
但我很快就意识到,即便是最准确的机器学习模型也没法自己创造价值。机器学习和 AI 的价值是根据它们支持的产品来衡量的。弄清楚如何有效地做到这一点才是构建 ML 驱动产品的真正意义所在。
《爱丽丝梦游仙境》的作者刘易斯·卡罗尔(Lewis Carroll)也是一位数学家。他发明了许多极具吸引力的产品,尽管有一些并没能像预期的那样发挥作用。(本文所有插图均来自约翰·坦尼尔(John Tenniel))。
关注问题,而非方法
如果以构建产品为目标,那么机器学习和 AI 就只是达成目标的手段。重要的是如何解决产品问题,而不是使用什么样的方法。在大多数情况中,快捷但有缺陷的方法(quick and dirty solution)会让你走得更远。如果一个问题用简单回归就能很好地解决时,就不要训练深度神经网络了。
当关注问题本身时,你有时会发现机器学习并不是解决问题的最好工具。很多问题是流程的问题。即使在这些情况下,数据科学家也可以做出很多贡献,因为他们天然倾向于采取严格、数据驱动的方法。但这并不表示用 AI 修复糟糕的流程是个好主意。只需修复流程。
寻找数据和产品之间的协同效应
将现有产品和根据机器学习模型做的预测结果结合起来很少能体现出机器学习的真正价值。当然,这也会给它们加一点分,但在强大的 AI 产品中,机器学习不只是附加功能。它是创造价值的引擎,而产品是建立在引擎基础上的:产品和数据必须要协同工作。
如果做得好,就会形成强大的良性循环,我称之为「产品/数据拟合」(product/data fit):产品有效地意识到数据的潜在价值,同时持续生成必要数据来进一步改进产品。
将机器学习引入产品是次优策略。
尤其是,AI 不能只停留在数据科学和工程团队中。组织的其他部分,从产品到管理层,都要参与其中,来加速创造价值的过程。这需要大量的教育和投入,而这超出了工程师们以往构建软件的习惯(即便是在初创公司中)。
数据先行,AI 在后
机器学习和 AI 都需要大量数据,更重要的是「高质量数据」。如果你要从头构建一个产品,那从第一天开始你就要考虑收集数据了。如果你要在现有产品中引入 AI 技术,那在进入 AI 部分之前,首先要准备好在数据工程和重建架构方面进行大量投入。
这并不意味着你要在实现价值前预先加载所有工作。更好的数据操作意味着更好的分析,这对任何组织的学习和改进都至关重要。利用这些成果来展示价值并产生组织认同。当你的分析非常坚实时,就可以真正开始考虑机器学习了。
进行有效沟通
打造优秀的产品需要优秀的产品经理和高管的支持。虽然 AI 和深度学习的力量吸引了许多人,但很少有非技术人员真正了解这些技术。有效讨论机器学习和 AI 需要对统计学有深刻的理解,沟通鸿沟往往会造成不切实际的期望。
关于机器学习和 AI 的讨论显然不是完全基于业务指标的
一个关键点是讨论业务指标的同时,也要思考如何将业务指标转换为模型指标。这样的话产品经理要承担很多责任,但对数据科学家而言也是如此,他们必须了解拟建产品相关领域的知识,还要深入理解业务,这样才能真正高效地工作。
快捷但有缺陷的方法副作用并没有那么大
#p#分页标题#e#
正如我前面提到的,快捷但有缺陷的方法会让你走得更远。部分在于,现在快捷但有缺陷的方法其实就是过去缓慢但准确的方法。像 word2vec 这样的工具变得和回归一样易于使用,而且研究者还在不断创建功能强大的新工具。对任何数据科学家来说,充分了解不同的构建模块以及它们之间的粘合剂是非常必要的。
开源工具爆炸式增长的后果之一是,大多数情况下开发专门的 ML 平台算不上一个好主意。当然,你应该有用常见构建块建立的专门算法,并将这些算法用在自己的问题和领域中。但,请把深度学习的研究留给谷歌的研究人员——要专注于业务问题,还记得吗?
如有疑问,展示数据
向用户展示数据很有用,但不是所有呈现方法都同样效果拔群
在产品开发的早期阶段,最重要的活动是获得市场反馈。但机器学习需要大量数据,而这需要很长时间。这就出现了一个问题:如何在没有太多数据的情况下,获得市场对某个数据产品的反馈?
一般来说最好的解决方案是向用户展示数据。人类一次只能处理少量数据,所以没有太多数据也没关系。用户会如何处理你展示给他们的数据呢?他们想掩饰哪些,又想深入挖掘哪些呢?公开之前无法获取的信息是一种很强大的方法,而且能够提供数据的潜在业务价值。
建立信任
信任是大多数技术成功的主要因素。最终,每一项技术都是供人类使用的,因此必须取得人们的信任。在机器学习应用的背景下,有些人可能担心他们的工作会被自动化取代。其他人则正在根据技术提供的信息做出重要决策。
如果一个 AI 产品中混合了这些担忧,比如某个产品试图替人类做出决策,而不是让人类自主决策,则会导致信任的快速流失。
信任易失不易得。打造人们信任的产品。
柴郡猫展示了一种获得用户信任的方法
原文链接:
https://towardsdatascience.com/what-ive-learned-working-with-12-machine-learning-startups-a9a3026d2419
【本文是51CTO专栏机构“机器之心”的原创译文,微信公众号“机器之心( id: almosthuman2014)”】
戳这里,看该作者更多好文
【编辑推荐】
图像识别没你想的那么难!看完这篇你也能成专家
分享 | 运营商大规模数据集群治理的实践指南
阿里专家:工程师快速成长的10个简单技巧
抢人大战中,那些选择留在高校的AI研究员们
Python 2.7终结于7个月后,这是你需要了解的3.X炫酷新特性