百度大脑与开源治理实践-FreeOA

百度大脑与开源治理实践

2015-04-20 15:01:07

阿炯

本文大致分为两个部分：
百度大脑
开源治理实践

百度大脑

注：李彦宏，用第一个专利搞出了一个千亿美金市值企业，这个专利，就是如何通过自动搜索超链接实现搜索引擎。这个技术相当于什么水平的人工智能呢？初级到不能再初级，要依赖大量的自然人行为参与，才可以形成最终的决策，可以说是最早的人工智能应用雏形。接下来，将要发生的将是颠覆式的，一般投资者难以理解这种颠覆意味着什么，是什么让李彦宏抽风般的玩命砸钱，又是什么让谷歌、微软、苹果、facebook抽风般的砸钱。两三岁智能水平的大脑，能够不知疲倦做的事情还非常有限，达到10岁，能理解学习进化时，你就知道商业获利是如何轻易了。人工智能，是个很牛逼的东西。形成一个核心智能大脑之后，为成千上万用户不知疲倦解决一定程度智能分析所带来的巨大商业价值是难以估量的。百度已经形成大量百科知识、文字、图片、视频信息，当用户想要指定搜索某种模糊场景的信息时，百度大脑可以精准定向，这带来的用户体验是颠覆性的。李彦宏，第二个专利，其实就在指向这里。想象一下，你用自然语言搜索苍老师某个场景的视频，直接跳出了那段你想要的内容，这个APP是否具有杀伤力？

近日百度终于发布了让人期待已久的百度大数据计划，而本文重点解读百度三层设计中(百度大脑，数据工厂，开放云)最顶层的设计，百度大脑计划，让我们来一次详细的百度大脑解剖。

而该计划究竟是什么让我们来一次深入了解，必须从三层架构一层层解剖。

第一层：开放云

作为一个人类婴儿，其第一件最重中之重的事情就是记忆，而记忆也是一切的发展前提。同样，我们将百度人脑看成人脑的话，那么第一件事情，必然是存储。人类没有记忆就没有关联，也更不用提决策与创造，而人类之所以能够在灵长类动物中立足，正是有着极大的可以存储记忆的脑容量，那么机器要模仿人脑也必然要建立在拥有庞大的存储能力之上才有可能，而百度也是在真正积累数据到一定程度后才开始该项目。

我们来看下百度存储能力的发展过程：

四年前也就是2010年，百度的机器学习能力并不是很高，只拥有几百台的服务器，特征向量只有十万。

两年后也就是2012年，百度的单集群规模达到了几十万，已经完全能够做到让这些机器在同一时间做同一件事情，特征向量从十万上升到两百亿！

而当在百度达到两百亿后机器学习就到达了一定瓶颈，就算特征向量增加到三百亿，四百亿，对机器学习的帮助并不是很大，而此时拥极强存储能力的百度开始了在机器学习上的“深度学习”的分支发展，进而升级已有的人工智能大脑。

备注：看机器处理能力有两个，第一个是看服务器规模，第二个是看特征向量大小。所谓特征向量简单理解的话就是指将文本语音图像视频等内容转化为机器能够读懂的一连串关键数据，数据越多，机器学习的就会越好，用户的搜索结果就会越精确，对用户的搜索体验效果也会随之上升，但对服务器的压力也会相应加大。百度能够仅用两年时间从10万直接飙升到200亿，足以见得百度服务器技术实力的雄厚。

此外这一段并非只讲存储，同时也是在讲百度大脑的发展，因为有了记忆就会发生关联，进而产生决策，这是一个整体前进的过程。

第二层：数据工厂

作为一个人，要调取某部分的记忆，就会很自然的联想到某个词，某个画面，某个音乐等等就能记起很多事情，比如当你听老歌时，看到童年的玩具时，汹涌的记忆总会被调出来。

当然这是因为人类大脑的神经连接结构允许我们这样去检索，而机器是不允许的，数据存储在硬盘上，机器想要找到某个数据，必须一个个访问过去，机器没有分类的概念，就像在图书馆中，机器是一个不会看分类的管理员，他要找某一本书时只能一本一本的找过去，十分笨拙。

也就是说，机器要想搜索什么内容时，必须有人来帮助它建立起分类，但最矛盾的就是，在错综复杂的语言结构中，我们很难为一个词去下定义，比如当你在说“苹果”这个词的时候，你如何告诉机器他的分类?"苹果"究竟是一个名词，还是一个公司？而决定一个词的意义的则是语境，也就是机器要依靠其他词语的出现来为这个词做模糊的定义，不能完全给它下死定义而是要根据环境来下，并且它还应当是动态的，不断变化的。

也就是说这种搜索技术也依然要百度的大脑配合才能达到，对每一个词的定义应该是一个库，而这个库中的每一个词又都各自构成库，百度的数据工厂所创造的算法，就是在这么一个数据之海中去为他们建立管理，然后去索引。

数据工厂相当于人脑中的记忆关联过程：将某个词同时与其他词或是某个场景等等建立起动态关联的过程。

第三层：百度大脑

人脑有了记忆，有了关联之后就会进行决策，比如小孩子碰到开水，烫到了手下次就不会碰，就是因为记忆了开水和烫手的痛苦，并将这两个记忆关联在了一起，才有了下次不去碰开水的决策。而百度大脑就是在模仿这些行为，做记忆关联之后的决策、行动、创造。

我之前关于开放云和数据工厂的分析完全是建立在搜索引擎之上，只是站在了百度对汉语能力的理解而已，而那时百度的人工智能也确实只是刚出生的婴儿而已，只能在PC端爬行，但是当智能手机诞生，可穿戴智能设备的出现后，百度开始成为可以走路的婴儿，此时百度大脑的智力已是高达两岁的婴儿水平。

从搜索引擎智能到硬件智能，这是一个平面到立体，二维到三维的过程。原因是以前百度搜集到的数据只能够是PC端用户的搜索行为，这之中充其量只有文字内容罢了，百度所能够建立的仅仅只是语言理解，对用户的输入文字数据做不断的处理与反馈，但是到了手机端，智能硬件端则完全变天，百度可以收集到的不仅仅只会是语言数据，更会收集到一整套的使用场景数据！

此时，百度从为用户提供搜索结果的搜索引擎开始转变为向用户提供全方位解决方案的人工智能，想象力无穷。那么，百度大脑将会如何模仿人类的感知，再到思考，以至于最后产生决策、生产、创造呢？

感知部分：

这里，我们还是先回看百度在PC时代的处理方式，百度通过海量的用户输入的相同信息，以及他们对网页的排序进行的点击，加上自身算法的种种规则，进而对搜索结果进行排序，将最优的结果前置于用户面前。那么以此类推在移动时代，百度能做的则是，通过海量的用户的发起行为，然后根据他们最后的选择行为，再根据用户的周边环境场景，建立起强大的数据关联，进而再为其决策。

而这里的感知则与PC时代完全不同，PC时代感知的只是某个词汇数据，但是这里感知的有两者：第一是用户的交互数据，用户对机器做了什么，说了什么，输入了什么图片，人工智能会将这些行为转化为机器能够理解的特征向量等数据输入进机器。第二是物的数据，场景数据，比如用户拍照中的场景，百度可以对其进行智能识别，判断其在哪里，是在餐馆还是在旅游途中等等，并也将这些场景转化为机器能够读懂的特征向量等数据，让二者进行一些必要的关联。

当然这些收集行为和PC时代一样都是匿名的，百度根本不在乎任何一个单用户的信息，百度在乎的是群体的决策信息，并利用这些信息进行判断后再为个体用户作决策推荐。

思考部分：

同样是类比于百度在PC时代的思考方式，百度拿到用户搜索的数据，再拿到网站的数据后为语词进行了相关性关联，为其进行了群体模糊解释，那么毫无疑问，百度会为其感知到的信息再次进行模糊解释，将感知到的信息进行与其他感知的关联处理，并且还会将之前已经在搜索引擎上积累的信息融合进来，进而为人类整体行为做出解释，并为个人想要选择做某些事情的时候提供最优方案。

就像婴儿牙牙学语一样，开始观察周围大人的说话与表情，并在自己的大脑中建立这一切的关联性，开始尝试学习大人说话的内容，并说出来。

决策、生产、创造部分：

同样是类比于百度在PC时代的思考方式，百度所做的决策就是帮用户提供最优的搜索结果，然后前置。那么也很好理解百度大脑在移动设备时代会如何帮助用户决策，百度会根据各个已经在数据库中已有的常规用户行为场景，再为某个用户提供具体的方案。

当百度大脑的思考过程执行完毕后，就完成了对某件事的动态理解，而理解完后就要去为用户产生最优质的结果，并再根据用户的反馈进行不断调整。

就像婴儿一样，虽然还在牙牙学习，但是已经开始在用积木搭建自己的城堡了。

案例：

百度大脑最大价值在于帮助用户利用大数据做好预测工作，举一个最好的案例就是用百度大脑来预测城市热度，目前百度根据海量的用户行为(感知)已经可以预测出某个城市两周后的旅游热度(思考与创造)，如果是景点的话可以预测两天后的热度。而这些预测也为用户出行旅游提供了极大的参考价值。

结语：

百度在PC时代有过很多成就，但在移动智能设备上再次迎来全新的挑战，在PC时代百度只需要解读语言就够了，但是在移动时代需要解读的东西会更多，图像识别，人脸识别，语音识别等等都是移动时代需要重新再深耕的新技术，并且用户使用场景的复杂性要远远大于PC时代。但挑战的同时也更藏着极大的机遇，这是一个从PC跨越到移动时代的人工智能大机遇，物联网的日趋成熟必将导致人工智能真正的实用时代的来临，这也是百度终于可以从二维上升到三维的机会，再加上百度已经在PC时代的人工智能的成熟的积累，继续进化更像是理所当然的事情。

另外再说个题外话，这是不是意味着母体已经开始降临了？

注：技术的积累是从量变到质变的过程，量变的过程我们经常忽略，质变发生时我们又经常被打得措手不及。而对于即将到来的质变，我希望百度能有所贡献。李彦宏这段话，是送给那些不懂技术，仅仅依靠互联网商业模式爆发而视百度为无物的竞争对手的最大嘲讽。人工智能时代到来时，你会看到不具备质变能力的企业是如何被摧枯拉朽般击倒。好在，丰胸对自然语言理解领域有些许了解，知道人工智能不是那么简单就能突破，否则，也会傻乎乎的认为李彦宏是在扯淡。百度构建人工智能领域的核心竞争力，形成之日，基本上就可以确认其护城河。谁能塑造第一个智能大脑，谁具有一大批核心技术储备，谁就有机会进入互联网下一个时代，否则，迟早关门大吉。智能搜索，会给用户体验带来一个崭新天地。

此前外媒报道称谷歌已经基本掌握“让电脑用人类自然语言描述图片内容”这一人工智能领域的最前沿技术。不过，近日斯坦福大学一位研究人员指出，真正最先在该技术上取得突破的，并非是谷歌，而是来自中国的百度。事实的确如此。在谷歌、微软以及多伦多大学在内等多家企业及机构各自公布的有关该项技术的最新研究成果中，均公开注明引用了百度研究院杰出科学家徐伟此前在该技术上的研究成果。

长期以来，电脑对于“文字”和“图像”，一直采取不同类别的处理模式，然而要直接让电脑透过一幅图片立即迅速、准确地给出对应的一句文字解释，几乎是一件不可能的事情。“利用百度的深度学习能力，即一种灵感来自于人脑运行方式的人工智能技术，百度成为世界上第一个解决这一技术难题的公司”，百度研究院副院长，深度学习实验室(IDL)主任余凯表示，“利用CNN(卷积神经网络)和RNN(递归神经网络)技术，百度成功地实现将图像内容生成自然语言的描述性句子或段落，从而在高层语义层面建立了图像和自然语言之间的桥梁，也就是“机器读图”，而这可以说是人工智能领域的一次技术飞跃。”

据介绍，百度的这一项目，由百度研究院杰出科学家徐伟主导的团队，毛俊华、杨亿，王江等人研发，其研究成果的相关论文于2014年10月份公布于arXiv。随后，包括谷歌、微软等多家知名公司和诸如多伦多大学等一批致力于该技术研究的机构，相继公布各自的研究成果——无一例外，在研究报告或者论文中，均引用了该论文。“百度在人工智能领域的投资力度一直很大，我们的突破既得益于公司整体战略的支持，也离不开整个团队日日夜夜的奋斗”，徐伟表示，“百度深度学习研究院为人工智能技术的发展提供了得天独厚的条件和资源，而且百度始终有着一个开放的技术心态”。

据悉，这项技术突破，一方面有巨大的应用空间，比如让用户通过自然语言找到需要的图片或视频，结合Baidu Eye帮助盲人了解周围环境，帮助儿童学习语言等。另一方面在人工智能的发展上有重要的意义。因为这个技术把传统上人工智能的两大分支- 自然语言处理和计算机视觉无缝地连为一体，从而使计算机能够真正地学习和建立语言和所感知到的物理世界之间的联系，这对于解决长期困扰人工智能的难题“常识推理”(common sense reasoning)是重要的一步。

人工智能技术属于当前互联网领域技术研发的最前沿。简单而言，可以将之理解为一种帮助计算机理解语音、图像以及文字内容的智能技术。近些年，全球互联网领域的几大巨头——谷歌、微软、苹果和Facebook等都在积极进行人工智能方面的研发，以改进其在图像、视频及语音的信息处理方面提供服务的能力。比如，谷歌一连收购8家机器人公司，苹果则表示在计算机视觉、机器学习、以及算法编写等领域存在大量的职位空缺——在一定程度上，人工智能技术被认为是互联网产业的下一个“引爆点”。

很显然，百度注意到了这一互联网发展的大趋势，并迅速对此展开了积极而全面的布局。2014年5月，有着“谷歌大脑之父”的深度学习专家吴恩达加盟百度，任职百度首席科学家。随即，百度宣布未来5年内将对其深度学习实验室投资3亿美元。2014年9月，另一位重量级技术人才——前微软全球资深副总裁张亚勤亦正式加盟百度，任职百度总裁并全面负责新兴业务。技术出身的张亚勤在大数据、云计算等技术创新方面与百度未来战略不谋而合。

2014年9月25日，美国知名高科技网站Xconomay的一篇介绍性报道指出，诸多“事实和数据”显示，来自中国的搜索巨头百度，正在成长为全球人工智能领域的领袖型企业之一。

“我们需要有这种信心，甚至对我来讲是一种信仰：就是对于技术的投资会获得回报，而且不仅仅是给百度带来回报，更会给整个社会带来非常大的回报。” 在2014年11月于浙江义乌古镇举行的世界互联网大会上，百度公司创始人、董事长兼CEO李彦宏如此表示。而根据李彦宏的透露，百度正持续投入大笔资金用于人工智能研究。

“有一天电脑会比人脑聪明。对于自然语言的理解、模式的识别、计算机的视觉这些听起来很遥远的事情，其实很快可以实现。”李彦宏说：“技术的积累是从量变到质变的过程，量变的过程我们经常忽略，质变发生时我们又经常被打得措手不及。而对于即将到来的质变，我希望百度能有所贡献。”

上文源自：中国新闻网

开源治理实践

2021年7月，百度开源办公室开源工作组组长、开放原子开源基金会 TOC 成员沈朝华在 GOTC 全球开源技术峰会【开源运营与治理直播】专场中，介绍了百度的开源实践，系统全面地梳理了百度开源的历史和治理经验。下文根据直播内容整理。

2009 年，百度需要做大数据相关的业务，此时内部有两种声音出现，一是自己从头做起，二是基于 Hadoop，最终百度决定基于开源大规模定制 Hadoop，这是百度首次大规模部署开源软件，从此也渐渐拉开深度参与开源的序幕：

2013 年，Echarts 对外开源图标和数据可视化库，目前已经毕业。同年，内部提出平台化思维提升创新效率，在百度开源发展历程中，平台化是非常重要的一步，它鼓励内部共享，帮助百度在内部逐渐推动开源建设。

2016 年，飞桨（PaddlePaddle）正式对外开源。平台化进入 2.0，内部开源兴起。实际上，在 2013 年百度开始开源平台化建设之后，内部共享平台野蛮生长了三年，2016 年之后百度希望内部共享和平台化也能够有序发展，开启了内部开源的兴起。

2017 年，百度开源迅速发展的一年：Apollo 自动驾驶正式对外开源；百度以金牌身份加入Apache、CNCF、Linux基金会，并持续至今；正式对外开源数据库 Doris；正式对外开源 RPC 开发框架 brpc。

2018 年，Echarts、Doris、brpc 捐献给 Apache 基金会进行孵化，百度以Premier 身份加入 LF AI 基金会。平台化进入 3.0，进入云上百度时代。用云的方式解决内部开源共享、效率提升的问题。

2019 年，百度以Premier身份加入 LF Edge 基金会；全球首个通用安全计算平台 Teaclave 进入 Apache 孵化；对外开源负载均衡和流量转发引擎 BFE。

2020 年，创始白金身份加入开放原子开源基金会；XuperChain 捐赠给开放原子；Apache Echarts 以顶级项目身份毕业。

2021 年，理事单位加入开源创新联合体。

截至目前，百度共主导开源 1000+ 项目、10000+ 社区贡献者、30万+ GitHub Star，多个项目已经广泛应用于实际业务生产。

引入外部开源

整体上，百度对于引入开源的原则是平衡效率与安全。

沈朝华介绍，从 Hadoop 开始，百度很早就意识到需要依赖开源，包括大量的服务器是跑在 Linux 上，以及大量代码依赖 GCC 等等，拥抱开源势在必行。但百度也很快的意识到，开源有风险，包括安全漏洞，高危 Bugs，以及法律合规问题，比如 GPL 协议的传染性风险。此前，百度开源主要推动者谭中意在 GOTC 直播中也详细介绍了开源软件供应链安全问题。

所以百度在引入开源方面，会设置一些相应的规范防范风险，包括两个鼓励和两个禁止，通过规范化高效和合规使用开源：
鼓励使用开源软件，尤其是各语言委员会推荐的。百度是根据内部使用到的各种语言，包括 C++，Java，等等，相应地会成立不同语言的语言委员会，对每种语言怎样引入开源软件做规范和参考建议。

鼓励使用各种语言的标准包管理方式来使用开源软件。

禁止使用安全指定的高危开源软件。百度安全部负责列出所有高危安全软件，列出禁止使用的高危软件名单。

禁止直接 Copy 开源代码到业务代码库中。此举是为了规范第三方的管理，在供应链里也讲到，这里的重要问题是要解决安全的问题，如果代码没有集中管理，是很难监控和了解有哪些代码在用，很难及时修复这些问题。

此外，百度在引入开源方面也做了一些规范和基础设施的建设。首先是建立第三方开源软件管理规范，包括：

引入：
自查：百度制定了自查指南，说明需要自查的方面，比较重要的两点包括该开源代码是否在安全黑名单中、软件的 License 是否符合要求，是否有风险。
引入方式：目前有包管理和统一源码管理方式。百度的源代码统一托管在内部代码托管平台上，对于第三方源码，要求必须放在 third-party 目录下统一进行管理。
终止：设置此条的主要原因并非指开源软件无人使用，而是指存在较大风险时，如何限期整改、删除。当发现一些软件有较大风险时，安全部会梳理出有哪些业务在使用该风险软件，并通知相应业务部门限期整改。
审计：开源软件引进之后还会伴随着不断地更新，百度会定期做代码安全扫描。
维护：明确 Owner、维护团队和机制。由于有些开源软件在引入之后也会更改，所以每一个第三方软件代码引入之后，会有明确的 Owner 负责维护，并建立相应的维护团队和机制。

第二是开发相应代码相关工具，包括：
安全扫描工具：发现风险、CVE 漏洞等。
代码搜索工具，主要解决两个问题：重复代码检测，包括代码是否重复引用，代码是否被直接应用到业务中去；代码引用问题，通过搜索工具知道 third-party 下面的代码到底有哪些业务在使用，有任何问题时可及时通知并跟踪解决。
搭建包管理平台，如 mvn、npm 等。

第三也是非常重要的——持续对全员进行开源知识培训。因为规范和工具只能解决大部分问题，大家是否真正了解开源软件的风险，是否知道如何正确使用开源软件也很重要。

百度在这方面的措施包括：产研相关的新员工入职培训中会专门设置章节，讲平台化和开源的内容。同时内部会提供开源相关在线课程，如有关开源规范的讲解、律师整理的开源相关的法律规范及介绍等等。

通过这些原则和规范，百度希望在开源的引入上，既能比较好地利用开源的价值，也能更好地防范风险。

内部开源

沈朝华介绍了百度在集团内部的开源举措。内部开源的一个重要问题是布道，“不是所有的产研同学都会去关注开源、真正意义上地了解开源，所以推进开源，布道就相当重要”。百度内部开源的布道工作可从三个方面开展：

1、建立内部开源相关社群，积极传播开源文化。
包括开源核心群、开源兴趣群；邀请内部开源项目 Owner 分享；邀请外部开源专业人士走入百度分享；充分利用内部渠道传播开源，包括新员工培训、内网、内部 IM 工具（如流的公众号）等。

2、组织内部开源相关活动，推动开源实践。
如举办百度开源大赛、举办开源大赛颁奖 Party；举办开源黑客之夜主题活动，像进行 C/C++ lib 构建；开办K8S 入门训练营、组建开源网站志愿者小分队等。

3、最后还会整理开源最佳实践，沉淀在百度内部 wiki 平台上。
如开源方最佳实践，包括完整文档、完整测试用例、耐心 reviewer。以及贡献方最佳实践，包括看文档、跑测试、求 review、反复改进等。

除此之外，百度内部开源还遇到了很多挑战，面对挑战，百度也做了许多尝试。

一是工具基础设施建设：鼓励开放，鼓励贡献，防止泄密、滥用和分支分裂。沈朝华表示，规范也好，工具也好，都不能解决所有的问题，比如公司可以规范性地要求所有引入第三方的代码不能直接放入业务仓库，但如果有员工有意或无意将代码放到自己的仓库下，检测工具是否能够检测到这种情况，就是非常关键性的决定因素了。

为了鼓励开源，百度也会移植一些外部开源平台的能力，如内部代码仓库支持基本的 repo 开放、issue 管理能力。此外，代码仓库支持“指纹”能力，可以阻止重复提交，避免拷贝开源代码到另外仓库。内部开源仓库还会做分支限制存活，防止分裂。

最后，在开源安全方面，百度会进行入职安全教育、入职/离职保密承诺、代码行为审计、外部代码托管平台扫描，以降低风险。

二是关注开源动机。在百度内部，开源一直与平台化战略结合，在推进平台化时，百度也希望有更多人参与，在无法及时响应用户的需求的情况下，内部开源代码，可以让业务团队及时做调整，以应对差异化需求。这也是百度对于平台化的要求——开源要达到很好的基础能力，确保其他部门的人能够低成本来贡献。

此外，从贡献者的角度如何促进动机？百度的解决方式是，在内部，技术等级的晋升是由技术委员会来进行评定，在每一次评定晋升的时候，会由开源的 TOC，给出候选人在开源方向上的贡献作为技术委员会的参考，所以参与开源对晋升是有直接价值的。另外百度高管也会出些开源相关活动，为突出的开源贡献者颁奖，提升开源在内部的认可度。

综上，内部开源的两个重要方面，一是布道，二是有很多挑战要持续去解决，沈朝华表示，“怎么去平衡安全的问题，怎么让业务方有动机去开源。让贡献方有动机去贡献，这些都是比较大的挑战，百度还在持续解决这个问题。”

百度对外开源

百度对外开源的基本路径是建立规范，并且有序、安全对外开源。项目想要对外开源，所需流程分为 5 个环节，从开源申请，到管理审批、联合评审、内部公示，最后是正式对外开源。

首先，开源申请的前置条件是已经内部开源，符合内部开源标准，然后由项目的 Owner 方发起申请。

第二，申请之后，至少是总监级别的管理者进行审批，代表从业务团队层面，对开源达成一致，并完成安全扫描。然后是业务管理层审批，管理层需要关注是否涉密不适合开源，并对开源后资源投入承诺。

第三步是联合评审，联合开源办公室、技术委员会、法务、专利团队四方，形成虚拟 team，针对每个项目组织正式会议评审。联合评审会关注开源准备、业务价值、开源合规等，以及关注公司利益是否有对应的保障，例如是否已申请专利、商标等。其中，是否申请专利，百度更多地是从考虑保护自身权益，而非商业利润出发。

评审通过之后，第四步是内部公示，由技术委员会发起，主要考察项目是否符合开源标准、质量如何、是否会影响百度技术品牌等。

第五步才是正式对外开源，启动项目运营。对外开源时，代码同步在 Gitee/GitHub 开放，并按规范放入对应组织下，项目可根据自身发展需求，选择是纳入百度组织之下，或是新建独立的品牌。同时，对于开源项目，还会按照开源项目运营指南建立基本体系，对外发布 PR。

对于外部开源项目，百度建立了分级支持策略，推动项目快速发展。

首先必须是内部开源项目，然后对外开源，逐步发展，建立自己的社区，有一定影响力之后推荐捐赠进入基金会。沈朝华表示，之所以划分层级，一是开源办公室清楚开源项目的发展路径，二是百度集团方面会统筹资源，在不同层次的项目上使其发挥更大的价值，推动项目有序发展。

百度外部开源还有一个重要举措，即深度参与国内外顶级开源基金会和组织。目前最主要加入了 Apache 软件基金会、Linux 基金会、CNCF 云原生计算基金会、开放原子开源基金会，总共捐赠了 9 个项目给 4 个基金会。此外，百度也在积极参与国内的一些开源组织联盟，在分享百度经验的同时，希望向同行学习。