崔宝秋:开源新时代 | CCF-GAIR AI源创专场

  • 2020 年 8 月 19 日
  • AI
      
8月7 日- 9 日,由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办的第五届CCF-GAIR 2020 全球人工智能与机器人峰会如期落地。

8日,大会与AI 研习社OpenI启智社区联合举办“AI源创专场”,重点讨论了新基建背景下,国内开源创新建设将催生的新势能,以及其将引发和促进的新产业机会。

会上,小米集团副总裁、集团技术委员会主席崔宝秋做了主题为《开源新时代》的分享,他从自身经历出发,回顾了25年来,从自由软件到开源软件的开源发展历程,深度阐述了小米的开源理念“我们不仅要站在巨人的肩膀上,还要为巨人指方向”,并且为国内公司开源提出了切实可行的指导建议。

AI 研习社将崔宝秋的演讲进行了不改变原意的编辑,以下为全文:

尊敬的各位嘉宾、各位同行,线上的各位朋友,大家下午好!

今天非常荣幸能再次来参加CCF-GAIR大会,过去我每年都来参加,非常荣幸能作为首届AI源创专场的嘉宾进行分享。

今天我跟大家分享的题目是:开源新时代。

为什么我选这个题目?我们处在什么样的新时代?新时代对开源带来哪些挑战?我有哪些想法?今天我简单和大家分享一下。

首先,我们来回顾一下什么是开源,开源的历程,今天我们在什么位置?为什么是新时代?

我本人从接触自由软件、到后来的开源软件有25年之久,也就是1/4个世纪。在我心目中开源是个理念,开源是个运动,当然再往上提升一下,开源是个信仰、开源是个平台、开源是个模式。

讲到开源,我们不得不提到自由软件运动。我是1995年去美国读书时接触到的,从接触Linux、到自由软件和后面的发起人,那是我早年膜拜的软件和人。

这几年,我总结了自由软件和开源的区别是什么。自由软件——我认为它是偏理想主义的,有的时候会提升到政治、哲学、道德层面,纯粹的打法不利于工业界更好的接受自由软件,所以才有了1998年开源软件的提出。

开源软件更加实用、更加现实,不谈其他的道德和限制,强调对工业界友好,对你和你的生意有什么好处。

我认为开源软件通过新的名词的创生、建立,大大推动了自由软件的发展。

早年开源软件有几个重要的里程碑,现在将近三十多年过去了,我专门挑出来和各位回顾一下,比如,GNU项目的发起、自由软件基金会的创立、1991年一个年轻人Linus宣布他要做Linux、1998年Open Source这个词的诞生,这几个里程碑是非常重要的,感谢几个重要里程碑后面的发起人。

尤其是Linux的兴起让移动互联网AIoT时代成为可能。几个里程碑的线条,几个小小的事件,对我们今天所处的万物智能互联的时代是有非常重大的意义,大家不要低估了它。

云计算和大数据时代离不开开源软件,这个大家都已经很清楚了,我就不用多赘述。

这是今天AI大火前面的“前浪”,它们推动了互联网技术、推动了搜索引擎、推动了大数据、数据科学,推动了以大数据和深度学习为代表的新一代AI技术的兴起。

在AI时代,AI和开源相互促进。AlphaGo事件发生时,我当时还有点担心,我担心AI时代大家会不会继续拥抱开源,像云计算和大数据时代那样拥抱开源,但我的担心很快就烟消云散。因为我突然发现,几乎所有的AI巨头都在深度拥抱开源,当然有的巨头是想通过开源平台快速建立自己在AI领域的领先地位。

开源的技术推动了AI、深度学习和大数据、5G能力的提升,让AI有了可能。反过来,AI的落地、AI的实用性,深度学习的魅力及其在各个领域的应用,让开源得到了更多人的认可、更多人的重视,包括学校、企业、政府等。

我觉得高文院士在推AI开源上影响了国家和政府对开源的高度重视,说实话这是我八年前回国加入小米的时候想都没想到的。谁想到,国家政府八年后会在AI时代大力推开源,当然AI和开源是相互促进的。

这是AI领域开源的里程碑事件(见下图)。

我只想表达的是AI时代大家继续拥抱开源。

我们进入一个新时代,这个时代就包括了中国开源力量的崛起。

回想1999年的艰难环境。前几天我把1999年我写给埃里克的信又拿出来看了一遍。当时中国的政府、中国的高校要接受Linux,埃里克曾经还说不欢迎,主要原因是当时中国有些Linux的版本不是真正的开源或是遵守开源的惯例,做得不是那么开放。但是今天就不一样了,从过去三五年,再往前推八、九年来看,中国的开源正慢慢走向世界,全方位地走向世界,不仅是AI,还有以前的一些云存储、云计算、大数据等开源项目。

大家可以看一下这张图,上面列了一些BAT、Kylin,到阿里OceanBase,还有百度飞桨、旷视的天元、还有一流、涛思数据等。小米的两个是Pegasus、MACE,它们一个是云存储,一个是AI的深度学习框架。

我为什么说现在是开源的新时代?最近微软买了GitHub,IBM买了RedHat,亚马逊在MongoDB许可证修改的压力下,开源了自己的DocumentDB,这些都代表了今天的科技巨头在开源上的态度。

二十多年前,我特别不喜欢Windows,我只喜欢Linux,我坚决不接受Windows的任何东西,因为微软极度地鄙视、仇视、憎恨开源,但是微软今天的股价、发展趋势做了华丽的转身。它在互联网化和云服务化上的改变是一方面,还有一方面我认为是对开源认识的改变。

IBM一直拥抱开源,也代表它对开源的认可,它想为开源做些事情。开源进入了新的时代,几乎全球包括中国各个领域,不同的企业都在讲开源,作为开源爱好者,自由软件的信仰者,今天我是非常兴奋的。当然小米也是,小米是深度拥抱开源的一家比较独特的新物种、互联网公司、个人设备公司,也特别兴奋。

新时代我们会面临哪些挑战,我们还有哪些问题,将来会往哪里走?我和很多业界的同行有些交流,大家有些共同的担心,有些担心我认为不是那么重要,未来小米往哪里去?有哪些坑,怎么避免这些坑,这是我比较关心的。

我刚加入小米的时候和小米内部的同事、同行分享,作为一家企业,不管是小企业、大企业,BAT巨头还是一流科技这样的创业公司,我觉得这些代表了一个企业拥抱开源的几个理由:

  1. 站在巨人肩膀上快速创新。这是每个初创企业、大型企业不可回避的,不用白不用,不用只能输在起跑线上。

  2. 开源软件已经非常成熟了。

  3. 开源软件有助于打造工程师文化,企业负责人都非常关注这个。

  4. 开源软件有助于提升代码质量和技术水平,业界的高手把代码放出去,经过千万双眼睛的共同审视,代码水平会越来越高,也就是我常讲的代码之美、算法之美、架构之美、测试框架之美。

  5. 拥抱开源有助于发现人才和吸引人才。大量成熟系统的人才,极致对开源文化的拥抱可能吸引更高的人才,小米能吸引Daniel,很重要的原因就是小米对开源的认可。

这是我八年前在小米定的开源理念:“不仅要站在巨人的肩膀上,还要为巨人指方向。

站在巨人的肩膀上更多代表了拿来主义,站在巨人肩膀上创新,占点便宜快速往前走。很多企业一不小心会被巨人抛弃掉,无法控制巨人而被甩掉,巨人跑了以后可能和你想的完全不一样,我加了一句“还要为巨人指方向”。

我们站在巨人的肩膀上,如何让巨人按照你企业的方向往前走,兼顾你企业的诉求,今天在各个点上这些理念都得以呈现。

基于这个开源理念,当时定了五大原则,在今天的业界还有一定的积极作用,还不过时,我也没有加以修改:

一是快。快速选型、快速掌控、快速推出产品、快速占领市场,这是企业必须注意的。

二是绝不重造轮子。在企业工作多年的管理者应该知道,很多员工特别喜欢自己做,重做一个事情,屡禁不止,有个轮子会说太小了,要做大的,大的说太大了,要一个小的,那个轮子不圆,我做一个圆的,大小合适圆度也合适的,他说颜色不行,你的是黑色的,他要做红色的。工程师想创新、想展示自己的能力,想自主可控,想自由的想法是永远存在的。

三是不用则已,要用则精。用是第一层次的,一个DEMO只是十几台机器,上百台服务器可能也可以搞定,上千台、上万台服务器,搞不定怎么办?不用则已,要用则精。

四是坚持开放与共享。要用就要有共享的精神,开放与共享是小米内部的文化。

五是在重大项目上要极力推出自己的Committer,要为巨人指方向。没有自己的Committer没办法为巨人指方向。不是为了赢得掌声、品牌而推Committer,而是很实用的,为了企业降低软件开发与维护的成本,长线投入。

这几个例子大家想一下,HBase代表小米不仅站在巨人肩膀上还为巨人指方向的案例,也是很好的诠释。今天小米已经成为这个很有名的国际开源项目社区中非常重要的力量,我们贡献9个Committer,3个PMC成员,现在的主席也是小米的工程师担任的。

HBase系统在很多场景下都满足不了我们的需求,性能不可确定性,让很多非常敏感的场景是不达标的,所以我们快速自研内部C++写的开源系统Pegasus,2017年开始对外开源。这是小米自研的高可用、高性能、强一致、易伸缩的分布式KV系统,也是一次对小米开源精神的诠释。

AI时代站在巨人的肩膀上,让小米在巨人的肩膀上快速的创新,这个也是小米开源原则的最佳实践。对于MACE,当时我们环顾四周没有任何一个端上的框架满足我们的需求,我们开始自研,2017年立项、2018年正式对外开源。

今天MACE已经在小米成为最受欢迎端上异构的平台,我们支持各种设备,电视、音箱到手机,我们希望开源的爱好者、企业加入我们,这个代表小米自研。

刚才的两个案例是从云计算到大数据到AI,小米在坚持我们的理念,坚持着开源五大原则的情况下做的实践,相信对各位有一些借鉴作用。

开源进入新时代,我也跟大家分享了八年前我们为什么拥抱开源的想法。

今天我要讲的新时代还有另外的含义,这是去年我在公司内部讲的,在行业上也讲过,我们今天作为从业人员,作为用户是非常幸福的,我们处在智能新时代,这个新时代是三个时代的交汇期:AI时代、IoT时代和5G时代。

这是让每个在座的朋友都在非常让人兴奋的智能新时代,这个新时代开源扮演什么样的角色?

最近我越来越认可这一点,也是我自己的思考,我认为开源是人类技术进步的最佳平台和模式,最近微博上有一个视频讲我们正进入一个新的文明,从早期的农业文明到工业文明,今天我们进入互联网文明,互联网新的文明阶段中国有很大的优势,为什么?因为互联网、因为信息化、因为数字技术,大数据,我加了一句“因为开源”,让中国在新的互联网文明时代有了一些机会、优势,当然我讲的是,开源不仅是中国而是全人类的,在智能新时代随着5G、6G时代的到来,未来围绕数据技术、数据科学,所有技术的模式。

那么在新时代,有哪些大家要注意的?

要注意一些坑,有一些企业和同行不停地掉到坑里,这是我过去几年一直关注的几个问题。过去我跟很多同行交流,很多企业大大小小的都有,他们会掉入开源的坑里。这些坑听起来大家都知道,实际上细思极恐,它们每个都会给企业、给个人带来很多的重复投入、弯路、低效。

首先是简单的拿来主义,拿来主义的时代已经慢慢过去。但很多人在拿开源软件来用的时候,还是不回馈、不分享、不开放,这样其实不利于这个项目、不利于企业的长期利益。

然后是缺乏共享,缺乏共享不仅仅是共享的精神,还有共享的能力。共享的精神是你想贡献,但你把代码放上去,别人就愿意接受吗?不是代码放上去,社区就接受,只有让它通用化、易懂、变得漂亮、让它有测试用例,要说服所有人接受,要让他知道你是一家什么企业,你不是一个游击队,不是打一枪换一个地方,你有一个长期投入的决心。

还有就是不够开放。

小米打造的是纯粹极致的开源文化,我们不要为开源而开源,不要为完成KPI而开源。

另外就是,很多大公司说“我开源你来用”,听起来这是非常开放、非常不错的,但实际上背后隐藏的含义是我想控制你。

你搭车就行了,你坐我车上就行了,也是不够开放。

这个现象不是今天才有,是过去两三年来一直有的。世界上还多巨头,包括硅谷的巨头也是不够开放的,不够开放是我今天看到国际开源社区大的趋势,因为太多大的、重大的开源项目后面是巨头支撑,巨头就会有些商业利益、和企业利益、企业的规划,巨头有可能会打压一些小的开源厂家,让他没有生存空间。

大家试想一下,茂密的森林中参天大树得到了所有的阳光和空间,小草就无法生存,慢慢会变成比较恶劣的现象。

开源背后的开放共享精神是会被这些不够开放企业的打法所损害。

如何做到真正的开放共享、中立平等、全球化?有些话题比较敏感,从操作系统到AI、大数据、云计算,甚至未来的互联网标准,都可能会受到影响,如果说,我们认为开源是未来人类技术进步的最佳模式和平台的话,这种不够开放、不够中立、不够平等的打法是不对的。其他的重磅开源项目,巨头在把门,这些代表不够开放、不够平等的倾向,非常不好。

今天的新时代,后面还有政治环境、世界格局新时代的因素在里面,这个时代我们应该做什么?

首先是面向未来,开放是未来人类技术进步最大的平台和模式,我们如何让它发扬光大?这里我呼吁两点:一是广义的开源,我在AI圈里讲过几次,我觉得今天不仅仅要做代码开源,还要做数据的开源、模型的开源、知识图谱的共建。

小爱同学、小度小度智能音箱如何变得更聪明、更伶俐?人类共有的知识图谱、各种语言的知识图谱,财经、教育、医疗、健康等,广义的开源还有很多。

还有向善的开源,最近小米参与了联合国可持续发展项目,面向可持续发展的AI、人工智能研究项目,AIFor Good,用开源能做什么事情?开放共享是一个价值观,是一个道德的事情,开源更应该做些好的事情,而不是作恶,开源技术、开源AI技术会让很多人做,爱好者、企业、学校、政府能不能用开源的平台做更多向善的事情?

Wuhan2020项目,疫情期间用开源的模式激发信息共享,很多技术在上面开源。Deepfake,如何用开源技术保护信息安全?如何用开源技术做更多的信息安全和隐私保护,做到更加极致?全球变暖、环境、贫穷、饥饿等,开源能做什么?广义的开源能做什么?这是我们要思考的,开源大有可为。

开源力量势不可当,这是我真心认可的,25年来我看到开源的力量一步步的壮大,变成全球化,真正的全球化,未来开源能做的事情非常多,势不可当,从狭义的开源到广义的开源,云计算、大数据、AI到未来的智联网、下一代互联网。

最后我用这两句话来结束我的分享:“开源力量、势不可当”、“开源是软件的未来”,谢谢大家!

推 荐 阅 读