这里是普通文章模块栏目内容页
一湖数据,几度春秋
有奖调研 | 1TB硬盘等你拿 AI+区块链的发展趋势及应用调研

2017年底的一场reorg,让微软的Azure Data Lake(数据湖)队伍拆的七零八落,Raghu Ramakrishnan也黯然神伤,被reorg成了吉祥物。

很多人可能不知道Raghu这个人,也有很多人知道这个人。Raghu是威斯康辛大学的教授,数据库研究领域的一座大山,经济危机前后去了Yahoo领导研究院工作,之后因为Yahoo生存危机取消研究院又跑来微软讨生活。

Azure的数据湖,可谓是Raghu的杰作。这个故事说来话长。微软的必应搜索引擎的开发过程中需要大数据平台,所以必应自研了一个叫做Cosmos的系统,内部非常的知名。大概是2012年的一次内部展示,当时的微软CEO Steve Ballmer(SB)看到这个神奇的东西,觉得微软大有前途,问手下的人,什么时候可以把这个玩意卖给沃尔玛?众皆哗然。

一年后SB进行了微软历史上颇为著名的一次全公司重组。这次重组把微软的大数据平台:基于Hadoop的HDInsight和当时在必应的Cosmos都交到了Raghu的手里。SB满心期待Raghu可以把这些东西整理一番,卖给沃尔玛。

一湖数据,几度春秋

Raghu接手Cosmos的时候,我还在哪里。我对Raghu的印象是闻名不如见面,个中滋味只能意会,不好多说。Raghu上台的同时,也把原来做Store的领导给赶回了研究院,并把原来做前端的一个印度兄弟提拔成了存储的领导。

之后Raghu就画了一张大饼,砍掉老的存储换一个新的,新的要和HDFS兼容,以便能够跑起来HDInsight。要拿Azure底层存储作为基础,以便和Azure兼容。资源分配要改成Yarn,而不是用自己内部那套自己开发的。

于此同时,内部的Scope编程语言则进行大范围的改造,使得一方面长的像SQL一方面具备连接这个存储系统和外部服务的能力。这个东西最后以U-SQL的方式发布了。

Raghu的如意算盘可能只有他最清楚了。但是基本上的想法还是HDInsight这个东西凑合着用,如果要完全发挥系统功能和性能,就要迁移到U-SQL上来。Lock-in的方式,更利于长期赚钱。

为了推行这个系统,新官上任的几把火烧的也是厉害。一阵清洗之后,原来一波中国人去了阿里,一波美国人去了Salesforce,组织内部大体上换上了自己人。

系统几次延期后终于在2016年和大家见面,之后又卖了一年多。结果是只忽悠了沃尔玛一个大客户。如此看来SB当年卖Cosmos给沃尔玛的愿望确实是实现了。但是其他用户没怎么买账过。

去Salesforce的人在Salesforce折腾了几年,最近听到的说法是一次Reorg,这些人里面的老大成了吉祥物。没看到做出什么惊艳的东西来。

去阿里巴巴的那群人,接管了原来叫做ODPS后来改名MaxCompute的平台--一个类似Cosmos的阿里巴巴的自研内部平台。经过一系列的一朝天子一朝臣的清理之后,掌握权力的新的组织做出了MaxCompute V2。在阿里内部可谓是成功。

但是MaxCompute对外销售,似乎遇到了这个Azure Data Lake一样的问题,叫好不叫好不知道,叫坐大家多少都是知道的。

最近老有人问我,如果Data Lake那波人不瞎折腾,直接拿Cosmos去卖,是不是就会成功了。这个问题我想了很久,最后我觉得,卖Cosmos一样会死的难看。

原因在于,一个封闭的系统里面,有一种开发工具,有很明显的优势。一方面,团队只需要优化一个工具,开发成本低,另外一方面,团队和其他业务团队有了很强的议价能力,先做哪个业务团队需要的功能再做哪个团队需要的功能,在只有一个分析工具的前提下,工具开发团队具有决定性的优势。

然而,一个集团内部,可以强推一个工具,对外服务却不行。被开源世界百花齐放熏陶的用户,必然不会接受自己没有自由选择工具的权利。所以这类系统,对是上帝一般的外部客户,就没有吸引力了。我实在想不明白,谁愿意为了用Data Lake还专门要学个U-SQL呢?

平台是需要打通各种工具和这个平台的衔接,而不是通过卡死工具来卡死平台的使用方式和议价能力。

这世界不缺一个已经失败的微软数据湖,也不缺可能会失败的其他产品。

【本文为51CTO专栏作者“徐飞”的原创稿件,转载请通过作者微信公众号“飞总聊IT”获取联系和授权】

戳这里,看该作者更多好文

【编辑推荐】

数据科学简历通关指南,一文告诉你HR青睐哪些特质

让你挂掉数据科学家面试的4宗罪

从术语到Spark,10篇必读大数据学习资源

外媒速递:关于人工智能与数据科学,高管必须了解的四项事实

运维不背锅!持续两年数据库“0故障”的运维优化之道

收藏
0
有帮助
0
没帮助
0