“未来,AI无处不在,基础架构‘无’影随行。”5月6日,在第十届全球软件开发大会上,百度副总裁侯震宇发表题为《面向 AI 的基础架构建设》的演讲,分享AI发展对基础架构的挑战,以及百度在其中的实践经验及解决方案。
侯震宇于2003年加入百度,历任新产品研发部架构师、基础架构部主任架构师、百度移动云首席架构师等职务,十几年来始终致力于百度的基础架构建设工作。
在演讲中,侯震宇表示,AI是一次巨大的浪潮,在全球范围内都带来了巨大的市场机遇和发展潜力。包括Statista、前瞻产业研究院、中信证券等权威机构的调研数据表明,中国已成为全球第二大潜在的AI市场。用AI带动互联网行业技术创新、推动传统产业升级转型,将是中国AI界接下来面临的一个巨大机遇和挑战。
就百度而言,在AI+自动驾驶、AI+家居、AI+教育、AI+医疗、AI+安防等诸多业务场景中,百度已早早展开了探索。例如,百度Apollo已成为目前全球涵盖产业最为丰富、最为全面的自动驾驶平台;小度助手则拥有中国市场规模最大、最繁荣、软硬件一体化的对话式人工智能生态;百度推出的教育智能化解决方案,以百度积累的海量专业内容、精准用户画像为数据基础,整合“ABC(AI, Big data, Cloud Computing)”三大关键技术,深入多个互动场景,打造“人工智能+教育”的智能教育模式,推动AI教育全面落地……这些都是百度推动AI技术快速落地、赋能传统行业取得的成果。
为了支持AI时代的业务场景,百度构建了国内体系最完整、功能最全面的人工智能技术开放平台——百度大脑核心技术及开放平台,提供全栈、端到端、软硬结合的AI技术、产品和方案,从深度学习框架、深度学习实训平台、场景化AI能力、定制化训练平台,到软硬一体模组和解决方案等实现全面开放,加速创新AI产品落地,助力企业智能化转型。百度大脑已对外开放了171项领先的AI能力,并通过百度智能云,为互联网、交通、工业、医疗、零售、金融等诸多行业赋能。
AI时代的基础架构:无处不在的计算,无处不在的连接
从百度的AI实践中可以看到, AI的发展会给基础架构带来了巨大的变化和挑战,需要能够从端到端来提供AI的计算能力,这就要求计算系统从旧有的对海量数据处理能力、对IO高峰值的追求,转变为满足AI训练功能方面IO密集、计算密集、通信密集的需求,和AI推理功能方面大吞吐和低延迟的需求。
基于此,侯震宇认为,面对即将到来的AI+5G时代,无处不在的计算将是所有系统的灵魂。真正的计算会发生设备(Device)、边缘(Edge)和云(Cloud)中,因而D-E-C场景将会是接下来需要重点研究的问题;与此同时,包括芯片之间、系统之间、设备之间的互相连接,将帮助将不同场景中的计算连接在一起,产生更大的计算力,推动数据流动,创造出更大的价值。
从芯片、到集群系统、再到D-E-C,计算无处不在
面对D-E-C场景给计算带来的挑战,百度从芯片、集群系统等多个角度展开了探索。在芯片层面,侯震宇表示,过去,我们用DSL(Domain Specific Language)去针对某个领域,设计出一种表示语言,让它能够更好的描述在这个领域上的场景或数据特征。未来更应该关注的是DSA(Domain Specific Architecture),即在特定领域场景里架构体系。在这个大的思考下,百度设计出了昆仑芯片,目前昆仑芯片的内存带宽已经达到512G,性能达到260Tops,通过应用定义、场景适配和模块化设计,IP+芯片可覆盖D-E-C场景,同时支持AI训练和推理。
在集群系统层面,百度通过打造大规模AI计算集群系统,提供了百万TOPS级算力。在这一系统中,百度自研超级AI计算平台X-MAN、高性能存储池和高速互联,共同构成了百度整体的基础设施;通过计算优化、IO优化、通信优化,实现整体性能加速;集成层面,通过智能调度/ADP、Auto Compiler实现了作业调度和资源分配。
在芯片、基础设施、性能优化之上,百度打造了国内唯一完整、全套的深度学习平台PaddlePaddle。PaddlePaddle包括核心框架、工具组件和服务平台三大部分。在核心框架层面,它可以提供开发、训练和预测一整套的技术能力;在此之上,又提供了包括视觉、自然语言等在内的丰富模型,形成完整的模型库,通过模块化的方式提供给使用者,以及包括迁移学习、强化学习、自动化网络结构设计、训练可视化工具、弹性深度学习计算等在内的工具组件;而在服务平台层面,PaddlePaddle则提供了零基础定制化训练和服务平台EasyDL和一站式开发平台AI Studio。通过一整套的框架和服务,百度可以帮助广大开发者和企业利用工具化、平台化的方式,降低深度学习应用门槛,加速推动产业智能化变革。
#p#分页标题#e#在计算需求的基础上,百度还为AI场景设计了高性能共享存储系统。通过计算与存储硬件分离,实现弹性扩展;通过运用分布式块存储,软硬结合,发挥新存储和网络技术优势;通过共享存储系统,针对AI场景海量小文件优化,支持数据共享访问。
针对AI时代计算需求带动的计算架构发展,侯震宇认为,在5G时代,整个D-E-C驱动的泛在计算架构已经基本成型,计算无处不在。有5G的强劲推动,在泛在计算架构中,计算从有边界发展为无边界;计算的中心化和去中心化实现了融合,转变为分层次、一体化的计算;计算和网络也实现了深度融合。
芯片互联、系统互联、数据中心互联、5G边缘互联,连接无处不在
计算的无处不在的背后,真正可能会推动产生巨大变革的,往往是互联技术。互联让计算连接起来,形成更大的计算力,推动数据流动,产生出更多的价值。因此,连接也无处不在。这个连接既涉及到芯片间的互联、系统间的互联,也涉及到数据中心内外部的互联和5G终端边缘上的互联。
据侯震宇介绍,在芯片级系统内部,百度运用了NVLink、PCIe Fabric,以及昆仑芯片自己定义的芯片间互联技术。此外,不久以前,百度宣布同微软、Facebook展开合作,联合制定OAM (OCP Accelerator Module) 标准。该标准用于指导AI硬件加速模块和系统设计,也是用以实现更多芯片卡之间的互联。
除了芯片间的互联,百度在云(Cloud)上,也就是数据中心内部,使用了Clos Fabric网络架构,实现了整个数据中心内部高速、无收敛比的互联。同时,把整个基础性资源,包括计算资源、存储资源等全部区分开,提供CPU Memory池,以及更多的存储池。通过前述的高速互联,以及必要的安全隔离,实现了资源共享,从而提升了效率,使整个计算力变得更强大。因而一定意义上来说,网络是真正基础设施最底层的东西,使得基础设施能够面向更大型的AI计算。
而在5G时代背景下,从数据中心到边缘节点,再到终端设备、应用场景,存在着从2毫秒到200毫秒不等的延时圈。基于这么大的延时圈,百度通过不同的通信技术,如MEC计算节点、WiFi Node等,去实现更好的通信,支持智慧城市、智慧交通、智能家居等业务的发展。这些也是百度面对5G的浪潮,在基础设施层面目前正在做和计划在做的工作。
在演讲的最后,侯震宇表示,在未来,计算无处不在,互联无处不在,百度也将通过努力,让AI无处不在。百度所构建的AI基础架构,“无”影随行。所谓“无”,就是让所有的服务都以云的形式、大平台的形式,无缝地对接给大家,从而以更加简单、更加易用的方式,实现百度AI能力的普惠。