6号坐飞机,就听到微软的朋友说微软的数据湖完蛋了,队伍解散了,那个曾经领导了这个项目的印度人Raghu成了名副其实的光杆司令。在飞机上心情拔凉拔凉的。当然飞机上没法写公众号,只能拖到今天来写了。
为什么我会心有戚戚然呢?大家看一段维基百科上面关于微软数据湖的历史:
The Azure Data Lake service was released on November 16, 2016. Azure Data Lake is built on the learnings and technologies of COSMOS, Microsoft’s internal big data system. COSMOS is used to store and process data for applications such as Azure, AdCenter, Bing, MSN, Skype and Windows Live. COSMOS features a SQL-like query engine called SCOPE upon which U-SQL was built.
翻译一下:Azure数据湖服务是2016年11月16日发布的。Azure数据湖是在微软内部的大数据平台Cosmos的技术和经验教训基础上构建的。Cosmos用来处理应用程序比如Azure, AdCenter, Bing,MSN, Skype和Windows Live的数据。Cosmos有一个像SQL一样的查询引擎叫做SCOPE。 U-SQL是在其上构建的。
这段话有点像黑话,我来翻译一下。微软有个内部大数据平台Cosmos,微软的很多部门都用它去存储和分析数据。Cosmos上有个分析引擎脚SCOPE,和SQL很像。Azure数据湖服务构建在Cosmos的经验教训上。提供了一个叫做U-SQL的语言,是从SCOPE那借鉴来的。
有些读文章的人知道,我毕业的第一份工作,在微软一个叫Cosmos的队伍,做的是一个叫SCOPE的语言。所以这解释了为什么在飞机上我还戚戚然了。
Cosmos的历史可以追溯到微软上一代CEO Steve Ballmer时代去了。当时Ballmer大举进军搜索做必应搜索引擎,为了支持构建搜索引擎,微软需要大数据分析平台。这就是Cosmos项目最开始的缘由。
Cosmos系统的具体细节,大家可以参阅我早年的文章:大数据那些事(15):Cosmos的技术。这里给一个简单的回顾。Cosmos底层是类似Google File System的文件存储系统。基本上是抄谷歌的架构,在某些细节上,比如压缩算法上有自己的特色。中间执行层用的是微软硅谷研究院(已经被沈向洋给整体关闭了)的Dryad。这个技术比MapReduce要高级一些,和Spark有类似之处。上面是一个查询引擎,类似SQL,叫SCOPE。
大约到2012年Cosmos基本上在微软内部把微软大部分部门的数据存储和处理都搬迁上来了,队伍也一再壮大。几个经理更是坐火箭一般的上升。据说由此内部和Steve Ballmer review的时候,Steve Ballmer说,这个东西这么好,什么时候卖给沃尔玛啊,我们好赚钱。这个说法是真是假不得而知,但是确实奠定了后续很多事情的基础。
2013年的Steve Ballmer做了两件事情,直接导致了他下台,也对Cosmos团队产生了很大的影响。第一件事情当然和Cosmos无关,就是买了Nokia。第二件事情是做了一个名为One Microsoft的全公司的重组。作为重组的一部分,Cosmos被从必应搜索引擎给剥离出来,划给了当时做SQL Azure和HDInsight的DPG(Data Processing Group)。这就导致了后来Azure Datalake的故事了。
作为当时Cloud & Enterprise的EVP的Satya,从雅虎研究院请来了印度人里面的大牛,数据库领域的著名专家Raghu。这位请来没多久,就对大数据这一块产生了兴趣,顺理成章的成为了Cosmos这个部门的大领导。
Raghu这个人我有很矛盾的看法。一方面作为威斯康辛的教授,数据库领域的大牛,其学术贡献不可忽视。我至今还记得自己第一次参加VLDB的时候他给我们这些年轻学生做报告,告诉大家当年他是如何头悬梁锥刺股的做研究的。另外一方面作为manager来说,可谓盛名之下其实难副,好端端的Cosmos被管的一塌糊涂。
Raghu上来之后就急于想把Cosmos卖给Walmart。怎么卖呢?当然是做个新系统。这个新系统要摈弃掉Cosmos老的存储,改用Azure Blob Store。查询语言要摈弃SCOPE,改用更SQL的语言,也就是后来的U-SQL。为了确保他的战略能实施,Raghu在重组的时候也杀点鸡给猴子们看。Cosmos一度进入了风雨飘摇的状态,很多老人都走了,我也差不多在Raguh入职一年后走了。
这个产品做得不顺利,但是不管怎么样,延期又延期之后2016年还是发布了,名字就是Azure Datalake。数据湖的概念从此开始流传开来。这个数据湖,总体来说是这样一个产品。它包括Azure Datalake Store和Azure Datalake Analytics。前者是存储,有API提供。后者是分析平台。它的分析平台支持Hadoop的那一套,也支持一个全新的U-SQL。如果你想要同时读取在Datalake里面的数据和Datalake外面的数据做分析的话,那就只有U-SQL可以选了。
#p#分页标题#e#因为U-SQL和Hadoop生态圈不兼容,而且是C#体系的。这个语言大家都不愿意学。又因为其他各种原因,第一版的系统不好用,卖了一年多也没卖出几个客户。不过沃尔玛还真给忽悠上船了。
当初Raghu强势的重组,导致了很多老员工离开了Cosmos。这些人有如我这样进小公司的,也有进大公司的。比较大的有两拨人。一部分去了Salesforce。在Salesforce折腾了几年。还有一拨人去了阿里巴巴,成了现在MaxCompute的领导者。这些人都各自有各自的发展,有好有坏,不好说。但是好端端的Cosmos队伍被Raghu败光了无疑是个事实。
Raghu的名声给他带来了很多光辉,所以微软一直都容忍Raghu折腾。这种容忍最终也到了不能再忍的地步了。去年微软做了Reorg以后,Azure datalake store队伍就给拆分去了Azure Blob Store。这导致了今年年初推出的Azure datalake store gen2。简单的说,出了一个既支持对象存储API也支持HadoopAPI的存储。
Azure datalake analytics,也就是做U-SQL的那个做,一直命运多舛,一度被并进了CosmosDB,这个无耻的借用了Cosmos名字的产品组,上演了一出李鬼并吞李逵的戏码。后来又被一群CRM的人占领了。
如今传来的消息,这个队伍被打散拆掉给其他队伍分赃了。作为一个独立产品的队伍,Azure datalake是不存在了。当然,微软不会明目张胆的宣布这个产品砸了,毕竟,上面还有Walmart这样的大傻逼在掏钱。只是产品的确是做的不好,也卖的不好。Raghu最终还是成了光杆司令。但这有什么用呢?好端端的队伍就这样给败光折腾光了。微软等于是开局不错,然后自废武功了。
【本文为51CTO专栏作者“徐飞”的原创稿件,转载请通过作者微信公众号“飞总聊IT”获取联系和授权】
戳这里,看该作者更多好文
【编辑推荐】
微软AI面试题有多难?这里有一份样卷
Facebook、谷歌、微软利用“黑暗模式”诱骗用户交出数据
外媒速递:如何在C#当中玩转Azure Functions?
微软突然大撒钱,给员工每人发高达10万美元的股票
六千科技面试者来评价,谷歌微软亚马逊你pick哪一家?