开源大数据引擎Greenplum数据库架构分析-FreeOA

开源大数据引擎Greenplum数据库架构分析

2016-12-27 15:58:40

阿炯

Greenplum 数据库是最先进的分布式开源数据库技术，主要用来处理大规模的数据分析任务，包括数据仓库、商务智能(OLAP)和数据挖掘等。自2015年10月正式开源以来，受到国内外业内人士的广泛关注。本文就社区关心的Greenplum数据库技术架构进行介绍。

一、Greenplum数据库简介

大数据是个炙手可热的词，各行各业都在谈。一谈到大数据，好多人认为就是Hadoop。实际上Hadoop只是大数据若干处理方案中的一个。现在的SQL、NoSQL、NewSQL、Hadoop等等，都能在不同层面或不同应用上处理大数据的某些问题。而Greenplum数据库做为一个分布式大规模并行处理数据库，在大多数情况下，更适合做大数据的存储引擎、计算引擎和分析引擎。

Greenplum数据库也简称GPDB，它拥有丰富的特性：

第一，完善的标准支持：GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展；从应用编程接口上讲，它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL，NewSQL和Hadoop 对 SQL 的支持都不完善，不同的系统需要单独开发和管理，且移植性不好。

第二，支持分布式事务，支持ACID。保证数据的强一致性。

第三，做为分布式数据库，拥有良好的线性扩展能力。在国内外用户生产环境中，具有上百个物理节点的GPDB集群都有很多案例。

第四，GPDB是企业级数据库产品，全球有上千个集群在不同客户的生产环境运行。这些集群为全球很多大的金融、政府、物流、零售等公司的关键业务提供服务。

第五，GPDB是Greenplum(现在的Pivotal)公司十多年研发投入的结果。GPDB基于PostgreSQL 8.2，PostgreSQL 8.2有大约80万行源代码，而GPDB现在有130万行源码。相比PostgreSQL 8.2，增加了约50万行的源代码。

第六，Greenplum有很多合作伙伴，GPDB有完善的生态系统，可以与很多企业级产品集成，譬如SAS，Cognos，Informatic，Tableau等；也可以很多种开源软件集成，譬如Pentaho,Talend 等。

二、Greenplum架构1

2.1 平台架构

图(1)是Greenplum数据库平台概括图。平台分为四个层次，我们依次从下往上看。

MPP核心架构

    GPDB是大规模无共享的处理架构，后面会专门介绍；

    先进的并行优化器是性能突出的关键之一。GPDB有两个优化器，一个是基于PostgreSQL planner的优化器；一个是全新开发的ORCA优化器。ORCA是Greenplum 5年以前启动的全新项目，这个优化器经过几年的开发和测试之后，最近已经成为GPDB企业版本的默认优化器。
    GPDB的存储引擎支持多态存储，一个表的数据可以根据访问模式的不同使用不同的存储方式。存储方式对用户透明，执行查询时，不用关心待访问的数据使用的存储模式，优化器会自动选择最佳查询计划。
    分布式数据库中，某些操作(例如跨节点关联)需要多个节点间进行数据交换。GPDB的并行数据库流引擎，可以根据数据的特点，例如分布方式、数据量等选择最合适的数据流操作符。目前GPDB支持两种数据流操作符：重分发(Redistribution)和广播(Broadcast)。重分发根据数据的哈希值重新分发到各个数据节点上，适用于数据量大的情况；广播则将数据发送给所有数据节点，适用于数据量较小的情况，例如维度表。
    软件交换机是GPDB的一个重要组件，软件交换机可以在各个数据节点间及与主节点间建立可靠的UDP数据通讯机制，是实现高效数据流的核心。

    Scatter/Gather 流引擎是专为并行数据加载和导出而设计，Scatter指数据通过并行加载服务器并行分散到各个数据节点，Gather指数据在 GPDB内部可以根据分布策略按需并行分发。

服务层

    GPDB支持多级容错机制和高可用：
    o 主节点(Master)高可用：为了避免主节点单点故障，可以设置一个主节点的副本(称为 Standby Master)，他们之间通过流复制技术实现同步复制。当主节点发生故障时，从节点成为主节点，处理用户请求并协调查询执行。它们之间通过心跳检测故障。

    o 数据节点(Segment)高可用：每个数据节点都可以配备一个镜像，它们之间通过文件操作级别的同步实现数据的同步复制(称为filerep技术)。数据节点上建议使用RAID5磁盘，以进一步提高数据的高可用。故障检测进程(ftsprobe)定期发送心跳给各个数据节点。当某个节点发生故障时，GPDB会自动进行故障切换。

    o 网络高可用：为了避免网络的单点故障，每个主机配置多个网口，并使用多个交换机避免网络故障时造成整个服务不可用。
    在线扩展：数据量增大，现有集群不能满足需求时，可以对GPDB数据库进行动态扩展。扩展过程中，业务可以继续运行，不需要宕机。

    任务管理是指对资源的管理和使用情况的管理。

产品特性

    数据加载在后面会专门介绍。
    数据联邦是比较有意思的，最近“数据湖泊”这个词非常火热，数据湖泊的目的是不需再对数据像以前那样经过定制，生成特定的业务报表；而是保存原始数据，什么时候想分析就从原始数据上直接处理。GBDB可以实现数据湖泊(我们称之为数据联邦)，它能访问和处理数据中心里面的所有数据，不管你的数据是在Hadoop、在文件系统上、还是在其他数据库中，Greenplum可以使用一个SQL在保证ACID的前提下访问所有数据。

    GPDB即支持行存，也支持列存。还为不需更新的数据存储和处理进行了专门的优化。
    支持多种压缩方法，包括QuickLZ，Zlib，RLE 等。
    支持多级分区表，分区支持多种模式，包括范围，列表等。
    支持B树、位图和GiST等索引。
    GPDB认证机制支持多种方式，包括LDAP和Kerberos等。通过访问控制列表(ACL)，可以实现灵活的基于角色的安全控制。
    扩展语言支持：GPDB 支持使用多种流行语言实现用户自定义函数(UDF，类似于Oracle的存储过程)，包括 Python，R，Java，Perl，C/C++ 等。
    地理信息处理：通过集成PostGIS，GPDB支持对地理信息进行存储和分析。
    内建数据挖掘算法库：通过MADLib(现在是Apache孵化项目)算法库，可以内建几十种常见的数据分析和挖掘算法到GPDB数据库中，包括逻辑回归，决策树，随机森林等。不需要写任何算法代码，通过SQL就可以使用其中的所有算法。
    文本检索：通过GPText扩展，GPDB可以支持高效灵活丰富的全文检索功能。与 MADLib 合用，可以进行并行文本分析和挖掘。

客户端访问和工具

通过psql命令行工具可以访问GPDB数据库的所有功能，此外还提供了ODBC、JDBC、OLEDB、libpq等应用编程接口。

数据库或者数据集群的管理工具非常重要，GPDB提供了图形化的管理工具GPCC(Greenplum Command Center)，帮你管理状态，监控资源使用情况。

Greenplum Workload Manager是刚刚发布的新产品，用以实现基于规则的资源管理。它支持自定义规则，当某个SQL满足规则描述的条件时会执行某些操作。比如你可以定义规则自动取消消耗CPU资源达50%以上的查询。

2.2 大规模并行处理(MPP)无共享架构

MPP 是Greenplum数据库最突出的特色。现在很流行MPP这个词，我们可以看一下它是什么意思。下边图(2)中，主节点有两个，一个是主节点，一个是从主节点。通过软交换机制，也就是通过高速网络，主节点连到数据节点。每个数据节点有自己的CPU，自己的内存，自己的硬盘，他们唯一共享的就是网络。这也是称为无共享架构的原因。这种架构的好处是集群是分布式的环境，数据可以分布在很多节点上进行并行处理，可以做到线性扩展。

在分布式数据库中，性能好坏的最重要因素是数据分布是否均匀。如果数据分布不均匀，有的节点上数据非常多，有的节点数据很少，这样会出现短板效应，整个SQL的效率不会很好。Greenplum支持多种数据分布的策略，默认使用主键或者第一个字段进行哈希分布，还支持随机分布。除了横向上数据可以按节点分布之外，在某个节点上还可以对数据进行分区。分区的规则比较灵活，可以按照范围分区，也可以按照列表值分区，如图(3)。

2.3 并行查询计划和执行

下面是个简单的SQL，如图(4)，从两张表中找到2008年的销售数据。图中右边是这个SQL的查询计划。从生成的查询计划树中看到有三种不同的颜色，颜色相同表示做同一件事情，我们称之为分片/切片(Slice)。最下层的橙色切片中有一个重分发节点，这个节点将本节点的数据重新分发到其他节点上。中间绿色切片表示分布式数据关联(HashJoin)。最上面切片负责将各个数据节点收到的数据进行汇总。

然后看看这个查询计划的执行，如图(5)。主节点(Master)上的调度器(QD)会下发查询任务到每个数据节点，数据节点收到任务后(查询计划树)，创建工作进程(QE)执行任务。如果需要跨节点数据交换(例如上面的HashJoin)，则数据节点上会创建多个工作进程协调执行任务。不同节点上执行同一任务(查询计划中的切片)的进程组成一个团伙(Gang)。数据从下往上流动，最终Master返回给客户端。

2.4 多态存储

上面介绍了GPDB的特点和SQL执行计划以及执行过程，那数据在每个节点上到底怎么样存储？

Greenplum提供称为“多态存储”的灵活存储方式。多态存储可以根据数据热度或者访问模式的不同而使用不同的存储方式。一张表的不同数据可以使用不同的物理存储方式，如图(6)。支持的存储方式包含：

    行存储：行存储是传统数据库常用的存储方式，特点是访问比较快，多列更新比较容易。
    列存储：列存储按列保存，不同列的数据存储在不同的地方(通常是不同文件中)。适合一次只访问宽表中某几个字段的情况。列存储的另外一个优势是压缩比高。

    外部表：数据保存在其他系统中例如HDFS，数据库只保留元数据信息。

2.5 大规模并行数据加载

作为一个数据库，一定会保存和处理数据。那数据来源于什么地方？Oracle这样的数据库里面的数据多是客户生成的，譬如你银行转账、淘宝订单等。对于数据分析型的数据库，其源数据通常是在其他系统中，而且数据量很大。这样数据加载的能力就变得非常重要。Greenplum提供了非常好的数据加载方案，支持高速的加载各种数据源的不同数据格式的数据，如图(7)。

    并行数据加载：因为是并行数据加载，所以性能非常好。Greenplum有叫DCA的一体机产品，第一代DCA可以做到10TB/小时；第二代为16TB/小时。第三代很快就要发布了，速度会更快。

    数据源和数据格式：数据源支持Hadoop，文件系统，数据库，还有 ETL管理的数据。数据格式支持文本，CSV，Parquet，Avro等。

三、Greenplum架构2

1、Greenplum整体架构信息

1.1 架构图示

在以上的架构中可以看出Greenplum主要是由Master和Segment组成的，Master承担生成查询计划并派发汇总执行结果，Segment是执行查询计划及数据储存管理。集群可以直接加载外部的数据。

1.2 Master主机与Segment主机任务

Master主机负责	Segment主机负责
1. 建立与客户端的会话连接和管理	1. 业务数据的存储和存取
2.sql的解析并形成分布式的执行计划	2.执行由master分发的sql语句
3.将生成好的执行计划分发到每个Segment上执行	3.对于master来说，每个Segment都是对等的，负责对应数据的存储和计算
4.收集Segment的执行结果	4.每一台机器上可以配置一到多个Segment
5.master不存储业务数据，只存储数据字典	5.由于每个Segment都是对等的，建议采用相同的机器配置
6.master主机可以一主一备,分布在两台机器上	6.Segment分primary 和mirror两种,一般交错第存放在子节点上
7.为了提高性能，master最好单独占用一台机器

1.3 数据库分布键分布数据策略

由于greenplum数据库是个分布式数据库,数据分布在每一个segment节点上，其中数据的分布策略有两种分别是hash分布于随机分布。

HASH策略

Hash分布是利用Distributed by (filed1,filed2....) 做为数据分布的条件，计算hash值,并通过hash值路由到制定的segment上,如果不指定分布键,默认的是获取第一个字段作为分布键。在字段作为分布键时，该字段的值尽量是唯一的，这样才能分布的均匀，效率会更高，否则会降低数据库的想能。

随机分布

随机分布也叫平均分布。数据会随机的落在每一个segment节点上,不管数据内容是什么格式都会落到segment上，在SQL查询数据,数据会重新分布，性能会比较差，随机分布的用法为Distributed randomly;

1.4 master主节点获取segment节点上的数据顺序

Master在执行sql语句时由于数据切分放在每个segment上,master获取结果的顺序是segment提交的顺序，segment提交到master的顺序是随机的,就会导致一样的数据每次的查询结果顺序不一致，这也是与其他的数据不一样的地方。

2、Greenplum数据库常用知识

2.1 Greenplum 概念

Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中，每个 SMP节点也可以运行自己的操作系统、数据库等。换言之，每个节点内的 CPU 不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的，这个过程一般称为数据重分配(Data Redistribution)。与传统的SMP架构明显不同，通常情况下，MPP系统因为要在不同处理单元之间传送信息，所以它的效率要比SMP要差一点，但是这也不是绝对的，因为 MPP 系统不共享资源，因此对它而言，资源比SMP要多，当需要处理的事务达到一定规模时，MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定，如果通信时间比较多，那MPP系统就不占优势了，相反，如果通信时间比较少，那MPP系统可以充分发挥资源的优势，达到高效率。

中国已有一些大型企业用户选择Greenplum的产品。

2.2 OLTP与OLAP的理解

描述概念

Greenplum 支持OLTP与OLAP机制，同时也支持AO表与堆方式储存，其中OLTP与OLAP的特点如下:
OLTP（On-Line Transaction Processing，联机事务处理）系统也称为生产系统，它是事件驱动的、面向应用的，比如电子商务网站的交易系统就是一个典型的OLTP系统。OLTP的基本特点是：
数据在系统中产生,
基于交易的处理系统（Transaction-Based）,
每次交易牵涉的数据量很小,
对响应时间要求非常高,
用户数量非常庞大，主要是操作人员,
数据库的各种操作主要基于索引进行。

OLAP（On-Line Analytical Processing，联机分析处理）是基于数据仓库的信息分析处理过程，是数据仓库的用户接口部分。OLAP系统是跨部门的、面向主题的，其基本特点是：
本身不产生数据，其基础数据来源于生产系统中的操作数据（OperationalData）
基于查询的分析系统,
复杂查询经常使用多表联结、全表扫描等，牵涉的数据量往往十分庞大,
响时间与具体查询有很大关系,
用户数量相对较小，其用户主要是业务人员与管理人员,
由于业务问题不固定，数据库的各种操作不能完全基于索引进行。

图示解释

OLTP与OLAP的比较

OLTP与OLAP对于硬件的要求

2.3 其它名词概念

HTAP概念

HTAP（Hybrid Transactional / Analytical Processing）
一份数据，支持在线事务与在线分析
分布式share nothing架构，线性扩展
3-15倍压缩

Append-only 的概念

AO表为追加存储，当删除、更新记录时，有一个BITMAP对象来存储对应的记录是否被删除。对于AO存储，虽然是appendonly，但实际上GP是支持DELETE和UPDATE的，被删除或更新的行，通过BITMAP来标记，需要用vacuum来释放。

2.4 数据仓库

数据仓库概念
数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它是单个数据存储，出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库设计规则相关资料
具体的可以参考数据仓库之父Bill Inmon在1991年出版的《Building the Data Warehouse》。

数据仓库设计规范参考

名词	名词简称	名词解释
Data Warehouse	DW	数据仓库主体
Operational Data Store	ODS	数据原始接入层,需要对数据频繁的增删改查,是支持对近期数据的OLTP查询,以减轻业务系统负载。
Data Warehouse Detail	DWD	数据源的细节层,有的也称为ODS层,是业务层与数据仓库的隔离层,在该层可以把业务表分的更细
Data Warehouse Base	DWB	数据仓库基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层
Data Warehouse Service	DWS	服务数据层,基于DWB上的基础数据,主要整合汇总最终的结果供应用层使用,一般是宽表和高度压缩表。
Data Warehouse History	DWH	该层不在数据仓库设计的范围之内,按照业务新增的数据层,主要储存历史数据。
Data Warehouse Exception	DWE	该层不在数据仓库设计的范围之内,按照业务新增的数据层,主要储存异常数据。
Enterprise Data Warehouse	EDW	作为企业唯一的数据仓库,EDW提供统一的数据服务,查询结果有效一致。数据设计支持跨部门,支持海量数据,并支持大量的查询请求。
Data Mart	DM	和EDW类似,但更专注于部门级别而不是公司级别的统一数据服务。提供EDW不能提供的，针对部门的特殊数据服务需求
BI/Analytic Database	BID/AD	为商业智能和分析而优化的数据处理技术。包括数据清理,ETL,数据挖掘等。生产报表,也支持adhoc查询,数据反范式设计。
Data Lake Database	DLD	该层存储非加工数据,比如日志、视频等,以后结构化数据,并且不分类,没有为了特定程序进行设计和加工。

四、 Greenplum核心组件

Greenplum 数据库包括以下核心组件：
解析器：主节点收到客户端请求后，执行认证操作。认证成功建立连接后，客户端可以发送查询给数据库。解析器负责对收到的查询SQL字符串进行词法解析、语法解析，并生成语法树。
优化器：优化器对解析器的结果进行处理，从所有可能的查询计划中选择一个最优或者接近最优的计划，生成查询计划。查询计划描述了如何执行一个查询，通常以树形结构描述。Greenplum最新的优化器叫 ORCA，关于 ORCA，可以从 ACM 论文中获得详细信息。
调度器(QD)：调度器发送优化后的查询计划给所有数据节点(Segments)上的执行器(QE)。调度器负责任务的执行，包括执行器的创建、销毁、错误处理、任务取消、状态更新等。
执行器(QE)：执行器收到调度器发送的查询计划后，开始执行自己负责的那部分计划。典型的操作包括数据扫描、哈希关联、排序、聚集等。
Interconnect：负责集群中各个节点间的数据传输。
系统表：系统表存储和管理数据库、表、字段的元数据。每个节点上都有相应的拷贝。
分布式事务：主节点上的分布式事务管理器协调数据节点上事务的提交和回滚操作，由两阶段提交(2PC)实现。每个数据节点都有自己的事务日志，负责自己节点上的事务处理。

五、MMP架构的特性简述

master host：负责与客户端对接，不包含任何用户数据，使用postgres数据库内核，保存有元数据，与segment 由局域网通讯
segment：存放数据，监听master的连接，用户只能通过master访问，是独立的PostgreSQL数据库。一个节点可运行多个segment实例
Interconnect：协调进程，由局域网互连，支持TCP or UDP

高可用性

1、master冗余
设立Standby 节点复制master的系统目录表日志（ catalog tables ）
master坏掉时需由管理员触发激活standby成为新master
使用基于预读日志（WAL）的流复制来保持primary master和standby master服务器同步

2、segment冗余
主segment接收来自master的请求以更改主segment的数据库，然后将这些更改复制到相应的mirror segment上
可选择对主机mirror（group mirroring）或对segment分散mirror（spread mirroring）
group mirroring：一台机器出现问题时，另一台机器将有两倍负荷
spread mirroring：可负载均衡
当segment实例或主机发生故障，master将记录实例的down状态，并激活与其对应的segment实例
Mirror segment采用物理文件复制的方案，而对于堆表，会先同步日志，当主segment的块需要写回磁盘时再同步mirror的文件，primary segment失败时，mirror自动成为primary，且状态为 Change Tracking，mirror失败时，primary会将状态改为 Change Tracking
AO表(Append-optimized)不使用内存缓存机制。对AO表的块所做的更改会立即复制到mirror segment上

并行查询

1、一个表的数据按hash映射分布在不同segment节点上，每次操作产生一个slice，slice之间通过 gather、broadcast、redistribution 方式传播

gather	broadcast	redistribution
每个节点数据发至master节点	表数据分布在各节点上，需每个节点发数据至每个节点，使每个节点都拥有表的完整数据，适用于小表	join与group by时，广播代价大时可按键重新将各节点数据打散至各节点再对每个节点操作，适用于大表

2、greenplum支持有三种存储方式：行存储、列存储、外部表

行存储	列存储	外部表
多列更新快	一次只访问几个字段，压缩比高	数据库只保留元数据信息

3、可以对数据进行hash分区或范围分区

多版本控制(MVCC)

事务型数据库用锁机制控制并发访问，greenplum用多版本控制保证数据一致性。最大的好处是读写不冲突，读的是snapshot。

六、Greenplum开源

2015年3月份，Pivotal宣布了Greenplum的开源计划，经过6个月紧锣密鼓的工作，于10月27号正式开源。官方网站为：http://greenplum.org。许可证书使用Apache 2许可证。Greenplum官方中文文档。

Greenplum 开源社区提供了运行环境沙盒以及使用教程，里面包含了Greenplum数据库的一些主要特性，从此处可以下载沙盒和教程。

有关Greenplum数据库使用和开发的任何问题都可以去邮件列表讨论：邮件列表有两个：gpdb-dev@greenplum.org和gpdb-user@greenplum.org。

源代码位于https://github.com/greenplum-db/gpdb，开源不到两个月就有1187个收藏，256个fork，超过150个pull request，其中136个pull request 已经关闭。贡献者中除了包含Pivotal的员工外，还有来自全球(包括中国、美国、日本和欧洲)的社区开发人员。关于从源代码编译和安装Greenplum数据库，可以参考这里。

作者简介：姚延栋(Pivotal研发总监)，2005年毕业于中科院软件所。曾在Sun Microsystems、Symantec工作多年，2010年加入Greenplum(现在的Pivotal)，负责中国研发团队。

责编/魏伟，关注Docker和openStack

本文为《程序员》原创文章，未经允许不得转载，订阅2016年《程序员》请点击这里。