Yandex开源大数据平台-YTsaurus
2023-03-26 19:04:50 阿炯

YTsaurus 是一个分布式存储和处理大数据的平台,支持 MapReduce 模型,带有一个分布式文件系统和一个 NoSQL 键值数据库。采用C/C++开发并在ApacheV2协议下授权使用。


YTsaurus is a distributed storage and processing platform for big data with support for MapReduce model, a distributed file system and a NoSQL key-value database.


特点:
多租户生态
一套相互关联的子系统:MapReduce、SQL 查询引擎、job 调度、用于 OLTP 工作负载的键值存储。
支持大量用户,消除多次安装并简化硬件使用
可靠性和稳定性
没有单点故障
服务器之间的自动复制
更新时不损失计算进度
可扩展性
多达 100 万个 CPU 内核和数千个 GPU
不同介质上的 EB 级数据:HDD、SSD、NVME、RAM
数万个节点
自动服务器扩展和缩减
丰富的功能
扩展 MapReduce 模块
分布式 ACID 事务
各种 SDK 和 API
计算资源和存储的安全隔离
用户友好且易于使用的用户界面
由 ClickHouse 提供技术支持的 CHYT
众所周知的 SQL dialect 和熟悉的功能
快速分析查询
通过 JDBC 和 ODBC 与流行的 BI 解决方案集成
由 Apache Spark 提供支持的 SPYT
一组用于编写 ETL 过程的流行工具
启动并支持多个迷你 SPYT 集群
轻松迁移现成的解决方案

 
因为众所周知的原因,俄罗斯开发者在开源领域遭到了各种 “不公正” 的对待。但即便如此,俄罗斯大型科技公司 Yandex 于2023年3月下旬依然在 GitHub 上开源了一个项目,该项目名为 YTsaurus,这是一个用于存储和处理大数据的平台,大多数 Yandex 服务均在使用。Yandex 分布式计算的负责人 Maxim Babenko 表示:Yandex 自 2010 年以来一直在开发 YTsaurus(在内部称之为 YT)。因为市场上没有一个解决方案可以满足我们所有的要求,我们决定开始建立自己的大数据生态。现在 YTsaurus 是 Yandex 内部基础设施的关键技术之一。

根据官方说法,YTsaurus 适用于广泛的任务,从数据分析到训练具有数十亿参数的复杂模型。例如:Yandex Search 用它建立搜索索引、自动驾驶汽车用它来处理海量数据和改进算法、YTsaurus 还管理着 Yandex 的超级计算机,分配负载,使计算能力得到尽可能有效的利用。


Yandex Cloud 的负责人 Alexey Bashkeev 则表示:YTsaurus 已经在 Yandex 内部证明了自己,现在我们把它提供给所有开发者。在数以千计的服务器上处理大量数据,并且负载不断增加的大公司将获得最大收益。我们相信将 YTsaurus 开源可以使其进入一个新的发展阶段,正如我们的其他产品那样。

最新版本:


项目主页:https://github.com/ytsaurus/ytsaurus