Cloudberry发展记事(202x)


Cloudberry数据库加入Apache孵化器
Cloudberry数据库加入Apache孵化器
Apache Cloudberry 发布公告宣布加入 Apache 孵化器。2024 年 10 月 12 日,Cloudberry 数据库项目经社区投票通过,加入了 Apache 软件基金会的孵化器。随后,项目的代码库于 2024 年 11 月 5 日成功迁移至 Apache。至此,Cloudberry 正式成为 Apache 的一员,并在 Apache 的支持下开始开发,该开源项目遵循 Apache License 2.0 协议。
Apache Cloudberry 是由 Greenplum 数据库初始开发团队打造的一套开源大规模并行处理(MPP)数据库。它源自 Pivotal Greenplum 数据库的开源版本,但采用了更新的 PostgreSQL 内核,并提供更多高级企业功能。同时,Cloudberry 也被定位为“用于分析和 AI/ML 工作负载的高级开源 MPP 数据库”。
Greenplum 数据库一直广受各行各业、不同规模团队的广泛采用和普遍好评。根据 DB-Engines 网站,其被列为 Top50 热门数据库之一。然而,随着开源 Greenplum 数据库的归档及其社区的彻底关闭,原始开源 Greenplum 用户已无法免费获取任何安全或者功能更新,这无疑对其业务带来了潜在挑战。
因此,Apache 宣称他们希望让 Cloudberry 成为原始 Greenplum 开源版本的首选开源替代方案,也希望全体开源开发者和 Greenplum 用户都能迁移至 Cloudberry 中来。
1、Greenplum 转为闭源,Cloudberry 拉拢原班人马
2024年 5 月,在没有任何公告的情况下,知名开源大规模并行处理(MPP)数据库 Greenplum 突然“404”无法访问。Greenplum 的源码仓库(https://github.com/greenplum-db/gpdb)也被修改为“只读”状态,且原有的分支(branch)、标签(tag)、拉取请求(PR)以及问题(issue)等信息均已被清空。
回顾 Greenplum 的发展,这个数据库的所有权可谓一波三折,在开源与闭源之间反复转换,最终在 2024 年 5 月定格为闭源状态。Greenplum 数据库的历史可以追溯到 2003 年,它最初是由 Greenplum 公司基于大规模并行处理(MPP)架构和 PostgreSQL 技术开发而成。
2010 年,Greenplum 公司被 EMC 集团收购。
2012 年,EMC 和 VMware(EMC 旗下子公司)将双方多项软件资产(包括 Greenplum 数据库)合并至一家名为 Pivotal Software 的新公司。
2015 年,Pivotal 开源了 Greenplum 核心引擎,并将其更名为 Pivotal Greenplum 数据库,成为首款开源 MPP 数据仓库。Pivotal Greenplum 数据库的开源核心被用于支撑 Apache HAWQ 和 Apache MADlib 等项目,而 Greenplum 本体则仍属于单一供应商拥有的开源项目。
2019 年,VMware 收购了 Pivotal Software。此番收购也让 Pivotal Greenplum 数据库归 VMware 所有。VMware 继续支持 Greenplum 数据库的后续开发及其开源社区,并在随后几年中发布了商业产品 VMware Tanzu Greenplum。
2023 年 11 月,博通完成了对 VMware 的收购,Greenplum 由此归博通公司所有。
2024 年 5 月,几乎所有 Greenplum 的 GitHub 代码仓库均被归档且转为只读,Slack 工作区被删除(https://greenplum.slack.com),user 和 dev 社区的电子邮件列表也陷入沉寂。所有这一切,均由博通公司在未作任何公告的情况下完成。
Greenplum 回归闭源引起了社区用户、开发人员以及生态系统合作伙伴的担忧。
首先对于现有的 Greenplum 社区用户来说,无法继续获得更新、升级和安全支持成为主要问题。用户需要自行解决技术难题,或支付高额费用购买博通的商业服务。这不仅增加了技术团队的压力,也大幅提高了运维成本。
其次可能改变当前国内数据仓库市场的竞争格局。许多基于 Greenplum 的衍生版本或云服务提供商,如果团队自身没有良好的技术储备,较大依赖上游,将在后续竞争中逐渐退出,具备真正技术实力的团队会获得更多机会并加强地位。
同时,Greenplum 拥有许多重量级的头部用户,以及较高的市场渗透率,其上下游生态系统也难以避免波动。一些开发者可能会转向其他数据仓库项目,相关服务商也会寻找新的合作伙伴。大多数 Greenplum 衍生产品都跟随 Greenplum 上游代码的变化,归档意味着引用 Greenplum 代码不那么容易了。
由于项目归单一供应商控制,Greenplum 始终缺乏允许社区参与决策流程的开放治理模式。Cloudberry 认为,Greenplum 数据库在漫长的演进过程中已经失去了创新和对主要功能加以更新的能力。必须承认,与新一代开源数据仓库和分析项目相比,Greenplum 的竞争力已经愈发有限。
Cloudberry 由初始 Greenplum 开发团队于 2022 年推出,其源代码于 2023 年开放。随着 Greenplum 突然转向闭源模式,Cloudberry 重新拉拢了最初的开源 Greenplum 开发人员和用户,以开源社区的形式塑造该项目。
2、演化方向:坚持 MPP,并升级 PG 内核
众所周知,Greenplum 在 OLAP 和分析工作负载方面的可扩展性远超普通的 PostgreSQL。而随着 Postgres Kernel 14.4 的引入,Cloudberry 实现了重要升级,成功从 Greenplum 的 Postgres 12 内核迁移过来。
不同之处在于,Greenplum,这一几乎被每家《财富》500 强企业广泛使用的数据库,如今已被 fork 了。这一分支为延续并进一步提升 Greenplum 二十多年的创新成果提供了新途径。理论上,由于该项目将成为 Apache 社区的一部分,它将摆脱单一实体的控制,真正发展为一个开放的开源项目。

但 Cloudberry 将坚持使用 MPP(大规模并行处理)架构,这对于大多数中小企业来说已足够。该架构通过在多个服务器或主机上分配数据和计算工作负载,来高效存储和处理大量数据。从用户角度看,Cloudberry Database 是一个完整的关系型数据库管理系统(RDBMS),物理上包含多个 PostgreSQL 实例,为了使这些独立的 PostgreSQL 实例协同工作,Cloudberry 在数据存储、计算、通信和管理等各个层面进行分布式集群处理。同时也隐藏了分布式系统的复杂细节,只提供单一的逻辑数据库视图。

Cloudberry 声称该数据库不仅仅是 Greenplum 的换皮产物,还具有一系列高级功能和新增亮点,增强的安全性、端到端性能优化、支持 AI/ 机器学习工作负载和流式传输、Lakehouse 智能湖仓集成等。

3、回顾大规模并行处理 (MPP) 数据库 Greenplum 突然失联一事
在没有任何公告的情况下,知名开源大规模并行处理 (MPP) 数据库 Greenplum 突然就“404”了,而有网友反馈之前还可以访问下载,2024年5月下旬已经打不开了。根据提示,5 月 24 日,Greenplum 源代码仓库的访问权限修改为了“只读”,同时还清空了原有的 branch、tag、pr、issue 等信息。另外值得注意的是,Greenplum 在国内的官网也已经打不开了。
Greenplum 号称是是业界第一个开源的大规模并行(MPP)数据库,目前在 DB-Engines 的全球排行榜上为列第 48 位。该操作或影响当前国内数仓市场格局。
Greenplum 对国内数据库行业产生了影响深远,很多数据库公司创始人都曾在参与过 Greenplum 项目。比如,拓数派(PieCloudDB)创始人冯雷,曾任 Pivotal(中国)的创始人兼总经理;四维纵横(YMatrix)创始人姚延栋,曾是 Greenplum 北京研发中心总经理、Greenplum 中国开源社区创始人;偶数科技(OushuDB)创始人常雷,曾创建 Greenplum 数据库高级研究与开发中国团队;酷克数据(HashData)联合创始人兼 CEO 简丽荣,曾在 Pivotal 从事 Greenplum 的开发。
对于 Greenplum 在社区的这一突然变化,酷克数据 HashData 研发 VP、Cloudberry Database 研发负责人杨瑜向外表示,严格来说这是源码归档,不是很多网友所说的“闭源”,但不清楚后续官方会采取什么动作。对于该事件产生的后续影响,杨瑜认为主要有三点:
首先,对于现有 Greenplum 社区用户来说,面临后续无法更新、升级和获得安全支持。社区用户可能需要寻找替代方案,或者尝试自行解决遇到的问题,这无疑增加了技术团队的负担和成本。
其次,可能影响当前国内数据仓库市场的竞争格局。目前国内有基于 Greenplum 的衍生版或云服务,如果团队自身没有良好的技术储备,较大依赖上游,将在后续竞争中逐渐退出,具备真正技术实力的团队会获得更多机会并加强地位。
同时,本次事件也对上下游生态系统产生影响,一些开发者可能会转向其他数据仓库项目,相关服务商也会寻找新的合作伙伴。大多数 Greenplum 衍生产品都跟随 Greenplum 上游代码的变化,归档意味着引用 Greenplum 代码不那么容易了。
对于该事件是否会对酷克数据(HashData)产生影响的疑问,杨瑜表示,其目前拥有除 VMware 之外的第二大 Greenplum 开发者团队,本次 Greenplum 归档事件对团队影响较小。
“我们在去年也开源了衍生版本 Cloudberry Database,能够实现对 Greenplum 的充分兼容和无缝迁移,我们将努力推动 Cloudberry 发展,让它成为 Greenplum 用户的替代选型方案。”杨瑜说道。
有专家表示,这利好了国内同类数据库,不过因为利益相关,该专家并未表达更多。据悉,国内著名开源数据仓库还有 Doris、StarRocks 等。另外开源项目的主导权问题也引起了大家的关注。如今很多开源项目背后都是大公司在主导。在该事件发生后,有专家表示,开源项目还是要纳入基金会,公司管理的开源项目太容易受公司政策和存亡影响了。
开源 9 年,为何一朝变卦
二十世纪末期,随着数据量开始增加,当时的数据仓库开始性能不足。解决方案除了 NoSQL、Hadoop,还有集群关系系统,即大规模并行处理系统。Greenplum 就是这一路线的典型代表。其最初由 Scott Yara 和 Luke Lonergan 于 2003 年创立,由两家公司 Didera 和 Metapa 合并而成。从一开始,Greenplum 就基于流行且广泛使用的开源数据库 PostgreSQL。Greenplum 与 PostgreSQL 版本保持同步,直到 8.2.15 版本从 PostgreSQL 主线分叉。
2007 年,Greenplum 发布了第一款产品,即 3.0 版。之后的版本增加了许多新功能,其中最引人注目的是镜像和高可用,而当时底层的 PostgreSQL 还无法提供这些。
2010 年,MPP 数据库领域开始整合,许多小公司被大公司收购。EMC 在 2010 年 7 月收购了 Greenplum,当时 Greenplum 4.0 版本刚刚发布。EMC 将 Greenplum 打包成一个硬件平台,即数据计算设备 (DCA)。尽管 Greenplum 最初是纯软件产品,客户自己提供硬件平台,但 DCA 还是成为最受欢迎的平台。
2012 年,EMC 收购了知名的 Pivotal Labs,这家公司从事结合结对编程、敏捷方法的应用程序开发,并使客户参与开发过程。事实证明,这不仅对 Greenplum 未来的发展进程非常重要,也为 2013 年 Greenplum 从 EMC 剥离出来的产品命名。剥离后的公司名为 Pivotal,吸纳了 EMC 和 VMware 的资产,包括以 Java 为中心的 Spring 框架、RabbitMQ、PaaS Cloud Foundry 和内存数据网格 Apache Geode(商业名称为 GemFire)。
2015 年,Pivotal 宣布采用开源策略。Pivotal 将把大部分软件捐赠给了 Apache 基金会,这些软件遵循 Apache 免费许可规则。不过它保留了该软件的订阅式企业版本,并继续销售和支持该版本。
Greenplum 管理层在 2015 年之前就考虑过开源战略,但认为行业尚未做好准备。直到 2015 年,许多客户要求开源。此外,Pivotal 认为开源也能吸引开发人才,通过社区参与加快 Greenplum 功能添加、最终将 Greenplum 合并到当前 PostgreSQL 版本的能力更强。
作为开源计划的一部分,Pivotal 成立了两个小组:第一个小组负责处理用户有关 Greenplum 的问题,Pivotal 数据人员负责该小组并及时提供答案;第二个小组是 Greenplum 开发社区的对话工具。
而之后,Pivotal 在 2020 年又被 VMWare 收购回去。被收购前,Pivotal 已于 18 年在纽交所上市,但市场表现一直不如人意,还因在财报没有提及公司 PaaS 技术与 Kubernetes 不兼容问题而被股东提起诉讼。
2023 年,VMWare 已经将 Greenplum 更新到了 7 大版本,目前最新的是 7.1。VMware Greenplum 7 建立在开源代码的基础上,植根于 PostgreSQL 12,并整合了近 5 年以来 PostgreSQL 的发布版本。
另外,VMware 还试着放入 AI 元素。官方称这是一个“统一分析和人工智能”平台,支持向量数据并行处理,号称“可与最新大语言模型方法(LLM)集成”、“能够可帮助企业充分利用其数据资源”。
同样在去年,博通以 610 亿美元的高价成功完成对 VMware 的收购,此外博通还要承担 VMware 的 80 亿美元的净债务。也就是说,现在 Pivotal Greenplum 属于博通资产。
因此,外界纷纷猜测此次 Greenplum 突然归档源代码仓库是受此影响。毕竟博通在开源社区的声誉并不好,甚至有网友认为其在软件方面还不如甲骨文。
4、参考链接:
https://cloudberry.apache.org/blog/cloudberry-database-enters-the-apache-incubator/
https://cloudberry.apache.org/docs/cbdb-vs-gp-features
https://mp.weixin.qq.com/s/2KTPPv0-D3Mtd77v-lY0iw
Cloudberry数据库加入Apache孵化器
Apache Cloudberry 发布公告宣布加入 Apache 孵化器。2024 年 10 月 12 日,Cloudberry 数据库项目经社区投票通过,加入了 Apache 软件基金会的孵化器。随后,项目的代码库于 2024 年 11 月 5 日成功迁移至 Apache。至此,Cloudberry 正式成为 Apache 的一员,并在 Apache 的支持下开始开发,该开源项目遵循 Apache License 2.0 协议。
Apache Cloudberry 是由 Greenplum 数据库初始开发团队打造的一套开源大规模并行处理(MPP)数据库。它源自 Pivotal Greenplum 数据库的开源版本,但采用了更新的 PostgreSQL 内核,并提供更多高级企业功能。同时,Cloudberry 也被定位为“用于分析和 AI/ML 工作负载的高级开源 MPP 数据库”。
Greenplum 数据库一直广受各行各业、不同规模团队的广泛采用和普遍好评。根据 DB-Engines 网站,其被列为 Top50 热门数据库之一。然而,随着开源 Greenplum 数据库的归档及其社区的彻底关闭,原始开源 Greenplum 用户已无法免费获取任何安全或者功能更新,这无疑对其业务带来了潜在挑战。
因此,Apache 宣称他们希望让 Cloudberry 成为原始 Greenplum 开源版本的首选开源替代方案,也希望全体开源开发者和 Greenplum 用户都能迁移至 Cloudberry 中来。
1、Greenplum 转为闭源,Cloudberry 拉拢原班人马
2024年 5 月,在没有任何公告的情况下,知名开源大规模并行处理(MPP)数据库 Greenplum 突然“404”无法访问。Greenplum 的源码仓库(https://github.com/greenplum-db/gpdb)也被修改为“只读”状态,且原有的分支(branch)、标签(tag)、拉取请求(PR)以及问题(issue)等信息均已被清空。
回顾 Greenplum 的发展,这个数据库的所有权可谓一波三折,在开源与闭源之间反复转换,最终在 2024 年 5 月定格为闭源状态。Greenplum 数据库的历史可以追溯到 2003 年,它最初是由 Greenplum 公司基于大规模并行处理(MPP)架构和 PostgreSQL 技术开发而成。
2010 年,Greenplum 公司被 EMC 集团收购。
2012 年,EMC 和 VMware(EMC 旗下子公司)将双方多项软件资产(包括 Greenplum 数据库)合并至一家名为 Pivotal Software 的新公司。
2015 年,Pivotal 开源了 Greenplum 核心引擎,并将其更名为 Pivotal Greenplum 数据库,成为首款开源 MPP 数据仓库。Pivotal Greenplum 数据库的开源核心被用于支撑 Apache HAWQ 和 Apache MADlib 等项目,而 Greenplum 本体则仍属于单一供应商拥有的开源项目。
2019 年,VMware 收购了 Pivotal Software。此番收购也让 Pivotal Greenplum 数据库归 VMware 所有。VMware 继续支持 Greenplum 数据库的后续开发及其开源社区,并在随后几年中发布了商业产品 VMware Tanzu Greenplum。
2023 年 11 月,博通完成了对 VMware 的收购,Greenplum 由此归博通公司所有。
2024 年 5 月,几乎所有 Greenplum 的 GitHub 代码仓库均被归档且转为只读,Slack 工作区被删除(https://greenplum.slack.com),user 和 dev 社区的电子邮件列表也陷入沉寂。所有这一切,均由博通公司在未作任何公告的情况下完成。
Greenplum 回归闭源引起了社区用户、开发人员以及生态系统合作伙伴的担忧。
首先对于现有的 Greenplum 社区用户来说,无法继续获得更新、升级和安全支持成为主要问题。用户需要自行解决技术难题,或支付高额费用购买博通的商业服务。这不仅增加了技术团队的压力,也大幅提高了运维成本。
其次可能改变当前国内数据仓库市场的竞争格局。许多基于 Greenplum 的衍生版本或云服务提供商,如果团队自身没有良好的技术储备,较大依赖上游,将在后续竞争中逐渐退出,具备真正技术实力的团队会获得更多机会并加强地位。
同时,Greenplum 拥有许多重量级的头部用户,以及较高的市场渗透率,其上下游生态系统也难以避免波动。一些开发者可能会转向其他数据仓库项目,相关服务商也会寻找新的合作伙伴。大多数 Greenplum 衍生产品都跟随 Greenplum 上游代码的变化,归档意味着引用 Greenplum 代码不那么容易了。
由于项目归单一供应商控制,Greenplum 始终缺乏允许社区参与决策流程的开放治理模式。Cloudberry 认为,Greenplum 数据库在漫长的演进过程中已经失去了创新和对主要功能加以更新的能力。必须承认,与新一代开源数据仓库和分析项目相比,Greenplum 的竞争力已经愈发有限。
Cloudberry 由初始 Greenplum 开发团队于 2022 年推出,其源代码于 2023 年开放。随着 Greenplum 突然转向闭源模式,Cloudberry 重新拉拢了最初的开源 Greenplum 开发人员和用户,以开源社区的形式塑造该项目。
2、演化方向:坚持 MPP,并升级 PG 内核
众所周知,Greenplum 在 OLAP 和分析工作负载方面的可扩展性远超普通的 PostgreSQL。而随着 Postgres Kernel 14.4 的引入,Cloudberry 实现了重要升级,成功从 Greenplum 的 Postgres 12 内核迁移过来。
不同之处在于,Greenplum,这一几乎被每家《财富》500 强企业广泛使用的数据库,如今已被 fork 了。这一分支为延续并进一步提升 Greenplum 二十多年的创新成果提供了新途径。理论上,由于该项目将成为 Apache 社区的一部分,它将摆脱单一实体的控制,真正发展为一个开放的开源项目。

但 Cloudberry 将坚持使用 MPP(大规模并行处理)架构,这对于大多数中小企业来说已足够。该架构通过在多个服务器或主机上分配数据和计算工作负载,来高效存储和处理大量数据。从用户角度看,Cloudberry Database 是一个完整的关系型数据库管理系统(RDBMS),物理上包含多个 PostgreSQL 实例,为了使这些独立的 PostgreSQL 实例协同工作,Cloudberry 在数据存储、计算、通信和管理等各个层面进行分布式集群处理。同时也隐藏了分布式系统的复杂细节,只提供单一的逻辑数据库视图。

Cloudberry 声称该数据库不仅仅是 Greenplum 的换皮产物,还具有一系列高级功能和新增亮点,增强的安全性、端到端性能优化、支持 AI/ 机器学习工作负载和流式传输、Lakehouse 智能湖仓集成等。

3、回顾大规模并行处理 (MPP) 数据库 Greenplum 突然失联一事
在没有任何公告的情况下,知名开源大规模并行处理 (MPP) 数据库 Greenplum 突然就“404”了,而有网友反馈之前还可以访问下载,2024年5月下旬已经打不开了。根据提示,5 月 24 日,Greenplum 源代码仓库的访问权限修改为了“只读”,同时还清空了原有的 branch、tag、pr、issue 等信息。另外值得注意的是,Greenplum 在国内的官网也已经打不开了。
Greenplum 号称是是业界第一个开源的大规模并行(MPP)数据库,目前在 DB-Engines 的全球排行榜上为列第 48 位。该操作或影响当前国内数仓市场格局。
Greenplum 对国内数据库行业产生了影响深远,很多数据库公司创始人都曾在参与过 Greenplum 项目。比如,拓数派(PieCloudDB)创始人冯雷,曾任 Pivotal(中国)的创始人兼总经理;四维纵横(YMatrix)创始人姚延栋,曾是 Greenplum 北京研发中心总经理、Greenplum 中国开源社区创始人;偶数科技(OushuDB)创始人常雷,曾创建 Greenplum 数据库高级研究与开发中国团队;酷克数据(HashData)联合创始人兼 CEO 简丽荣,曾在 Pivotal 从事 Greenplum 的开发。
对于 Greenplum 在社区的这一突然变化,酷克数据 HashData 研发 VP、Cloudberry Database 研发负责人杨瑜向外表示,严格来说这是源码归档,不是很多网友所说的“闭源”,但不清楚后续官方会采取什么动作。对于该事件产生的后续影响,杨瑜认为主要有三点:
首先,对于现有 Greenplum 社区用户来说,面临后续无法更新、升级和获得安全支持。社区用户可能需要寻找替代方案,或者尝试自行解决遇到的问题,这无疑增加了技术团队的负担和成本。
其次,可能影响当前国内数据仓库市场的竞争格局。目前国内有基于 Greenplum 的衍生版或云服务,如果团队自身没有良好的技术储备,较大依赖上游,将在后续竞争中逐渐退出,具备真正技术实力的团队会获得更多机会并加强地位。
同时,本次事件也对上下游生态系统产生影响,一些开发者可能会转向其他数据仓库项目,相关服务商也会寻找新的合作伙伴。大多数 Greenplum 衍生产品都跟随 Greenplum 上游代码的变化,归档意味着引用 Greenplum 代码不那么容易了。
对于该事件是否会对酷克数据(HashData)产生影响的疑问,杨瑜表示,其目前拥有除 VMware 之外的第二大 Greenplum 开发者团队,本次 Greenplum 归档事件对团队影响较小。
“我们在去年也开源了衍生版本 Cloudberry Database,能够实现对 Greenplum 的充分兼容和无缝迁移,我们将努力推动 Cloudberry 发展,让它成为 Greenplum 用户的替代选型方案。”杨瑜说道。
有专家表示,这利好了国内同类数据库,不过因为利益相关,该专家并未表达更多。据悉,国内著名开源数据仓库还有 Doris、StarRocks 等。另外开源项目的主导权问题也引起了大家的关注。如今很多开源项目背后都是大公司在主导。在该事件发生后,有专家表示,开源项目还是要纳入基金会,公司管理的开源项目太容易受公司政策和存亡影响了。
开源 9 年,为何一朝变卦
二十世纪末期,随着数据量开始增加,当时的数据仓库开始性能不足。解决方案除了 NoSQL、Hadoop,还有集群关系系统,即大规模并行处理系统。Greenplum 就是这一路线的典型代表。其最初由 Scott Yara 和 Luke Lonergan 于 2003 年创立,由两家公司 Didera 和 Metapa 合并而成。从一开始,Greenplum 就基于流行且广泛使用的开源数据库 PostgreSQL。Greenplum 与 PostgreSQL 版本保持同步,直到 8.2.15 版本从 PostgreSQL 主线分叉。
2007 年,Greenplum 发布了第一款产品,即 3.0 版。之后的版本增加了许多新功能,其中最引人注目的是镜像和高可用,而当时底层的 PostgreSQL 还无法提供这些。
2010 年,MPP 数据库领域开始整合,许多小公司被大公司收购。EMC 在 2010 年 7 月收购了 Greenplum,当时 Greenplum 4.0 版本刚刚发布。EMC 将 Greenplum 打包成一个硬件平台,即数据计算设备 (DCA)。尽管 Greenplum 最初是纯软件产品,客户自己提供硬件平台,但 DCA 还是成为最受欢迎的平台。
2012 年,EMC 收购了知名的 Pivotal Labs,这家公司从事结合结对编程、敏捷方法的应用程序开发,并使客户参与开发过程。事实证明,这不仅对 Greenplum 未来的发展进程非常重要,也为 2013 年 Greenplum 从 EMC 剥离出来的产品命名。剥离后的公司名为 Pivotal,吸纳了 EMC 和 VMware 的资产,包括以 Java 为中心的 Spring 框架、RabbitMQ、PaaS Cloud Foundry 和内存数据网格 Apache Geode(商业名称为 GemFire)。
2015 年,Pivotal 宣布采用开源策略。Pivotal 将把大部分软件捐赠给了 Apache 基金会,这些软件遵循 Apache 免费许可规则。不过它保留了该软件的订阅式企业版本,并继续销售和支持该版本。
Greenplum 管理层在 2015 年之前就考虑过开源战略,但认为行业尚未做好准备。直到 2015 年,许多客户要求开源。此外,Pivotal 认为开源也能吸引开发人才,通过社区参与加快 Greenplum 功能添加、最终将 Greenplum 合并到当前 PostgreSQL 版本的能力更强。
作为开源计划的一部分,Pivotal 成立了两个小组:第一个小组负责处理用户有关 Greenplum 的问题,Pivotal 数据人员负责该小组并及时提供答案;第二个小组是 Greenplum 开发社区的对话工具。
而之后,Pivotal 在 2020 年又被 VMWare 收购回去。被收购前,Pivotal 已于 18 年在纽交所上市,但市场表现一直不如人意,还因在财报没有提及公司 PaaS 技术与 Kubernetes 不兼容问题而被股东提起诉讼。
2023 年,VMWare 已经将 Greenplum 更新到了 7 大版本,目前最新的是 7.1。VMware Greenplum 7 建立在开源代码的基础上,植根于 PostgreSQL 12,并整合了近 5 年以来 PostgreSQL 的发布版本。
另外,VMware 还试着放入 AI 元素。官方称这是一个“统一分析和人工智能”平台,支持向量数据并行处理,号称“可与最新大语言模型方法(LLM)集成”、“能够可帮助企业充分利用其数据资源”。
同样在去年,博通以 610 亿美元的高价成功完成对 VMware 的收购,此外博通还要承担 VMware 的 80 亿美元的净债务。也就是说,现在 Pivotal Greenplum 属于博通资产。
因此,外界纷纷猜测此次 Greenplum 突然归档源代码仓库是受此影响。毕竟博通在开源社区的声誉并不好,甚至有网友认为其在软件方面还不如甲骨文。
4、参考链接:
https://cloudberry.apache.org/blog/cloudberry-database-enters-the-apache-incubator/
https://cloudberry.apache.org/docs/cbdb-vs-gp-features
https://mp.weixin.qq.com/s/2KTPPv0-D3Mtd77v-lY0iw