数据集成工具-Apache SeaTunnel
2023-07-18 08:51:34 阿炯

Apache SeaTunnel 是新一代高性能、分布式、海量数据集成工具,支持上百种数据源 (Database/Cloud/SaaS) 支持海量数据的实时 CDC 和批量同步,可以稳定高效地同步万亿级数据。其原名 Waterdrop,在 2021 年 10 月更名为 SeaTunnel 并申请加入 Apache 孵化器。采用Java开发并在ApacheV2.0协议下授权使用。


SeaTunnel is a very easy-to-use ultra-high-performance distributed data integration platform that supports real-time synchronization of massive data. It can synchronize tens of billions of data stably and efficiently every day, and has been used in the production of nearly 100 companies. Next-generation high-performance, distributed, massive data integration tool.


作为超高性能分布式数据集成工具,Apache SeaTunnel 整体的特征和优势包括: 支持上百种数据源、传输速度快、准确率高; 降低复杂性,基于 API 开发的连接器能兼容离线同步、实时同步、全量同步、增量同步、CDC 实时同步等多种场景; 简单易用,提供可拖拽和类 SQL 语言界面,节省开发者更多时间 ,提供了作业可视化管理、调度、运行和监控能力。加速低代码和无代码工具的集成 ; 简单易维护,支持单机 & 集群部署,如果选择 SeaTunnel Zeta 引擎部署,无需依赖 Spark、Flink 等大数据组件。


在社区发展方面,Apache SeaTunnel 在 ASF 孵化期间,从最开始的几万行代码发展到现在 25 万行代码,共计创建了 2920+ 个 PR,合并 2850+ 个 PR。目前,SeaTunnel 在 GitHub 上 Star 数达 5.1 k+,社区达到 5000+ 人规模,贡献者 180+ 人。在用户方面,其现已广泛应用于互联网、金融、零售、出行、智能家居、云服务等各行各业中,在海量数据集成、实时异构数据同步、数据聚合以及多源数据聚集等场景中,可高效地处理数万亿条规模以上的数据。

目前 Apache SeaTunnel 已发布 40 + 个版本,并在大量企业生产实践中使用,包括 J.P.Morgan、字节跳动、Stey、中国移动、富士康、腾讯云、国双、中科大数据研究院、360、Shoppe、Bilibili、新浪、搜狗、唯品会等企业,广泛应用于海量异构数据集成、CDC 数据同步,SaaS 数据集成以及多源数据处理等场景中。


2021 年 12 月 9 日, Apache SeaTunnel 以全票通过的优秀表现正式成为 Apache 孵化器项目。之后在导师 Jean-Baptiste Onofré、Kevin Ratnasekera、Willem Ning Jiang、 Ted Liu、Guo William、Zhenxu Ke、Lidong Dai 的指导下,由孵化器管理委员会成员进行辅导和孵化。2023 年 5 月 17 日,Apache 董事会通过 Apache SeaTunnel 毕业决议,结束了为期 18 个月的孵化,正式确定 Apache SeaTunnel 成为 Apache 顶级项目。


从刚开始寥寥无几的贡献者,到如今拥有庞大的用户群体和蓬勃发展的社区,Apache SeaTunnel 和其他从零开始的项目一样,经历的挑战和压力来自方方面面,包括技术架构重构 、开源社区协作等,正是在众多 SeaTunnel 贡献者日日夜夜的坚持和努力之下,Apache SeaTunnel 才得以顺利从 Apache 孵化器毕业,成为 Apache 顶级项目 (Top Level Project)。

其使命就是连通全球的各种数据源,让简单易用的海量数据同步的能力传播到全世界。为了完成这个使命,在社区的共同努力之下,项目已经创下了许多重要里程碑,不仅获得了数百家企业用户的支持,在数据集成领域也广受认可。

2017 年开源,项目开源,当时名为 Waterdrop,在腾讯、新浪等企业生产中使用; 2021 年 12 月,进入 Apache 孵化器,并更名为 Apache SeaTunnel; 2022 年 3 月,发布首个 Apache 版本,受到用户的热烈反响; 2022 年 10 月,发布第一个重大版本 2.2.0,实现了 SeaTunnel Zeta 引擎,并完成跨引擎的连接器支持; 2022 年 12 月支持重要功能 CDC 同步,连接器个数突破 100+; 2023 年,实现支持 Flink 1.15 和 Spark 3,Zeta 引擎支持 CDC 整库同步和多表同步,以及 Schema Evolution 和自动建表等; 2023 年 6 月 1 日,ASF 正式宣布 Apache SeaTunnel 毕业。


最新版本:2.3


官方主页:
https://seatunnel.apache.org/
https://github.com/apache/seatunnel