开源分布式文件系统-MogileFS-FreeOA

开源分布式文件系统-MogileFS

2016-03-30 18:02:54

阿炯

MogileFS是一个分布式文件存储的解决方案，由Six Apart采用Perl语言编写开发，授权协议与Perl相同。下面列出了其一些特性(由mogileFS页面介绍翻译而来)
* 应用层——不需要特殊的核心组件
* 无单点失败——安装的三个组件(存储节点、跟踪器、跟踪用的数据库)，均可运行在多个机器上，因此没有单点失败。(也可以将跟踪器和存储节点运行在同一台机器上，这样你就没有必要用4台机器)推荐至少两台机器。
* 自动的文件复制——基于不同的文件“分类”，文件可以被自动的复制到多个有足够存储空间的存储节点上，这样可以满足这个“类别”的最少复制要求。比如有一个图片网站，可以设置原始的JPEG图片需要复制至少三份，但实际只有1或2份拷贝，如果丢失了数据，那么Mogile可以重新建立遗失的拷贝数。用这种办法，MogileFS(不做RAID)可以节约磁盘，否则你将存储同样的拷贝多份，完全没有必要。
* “比RAID好多了”——在一个非存储区域网络的RAID(non-SAN RAID)的建立中，磁盘是冗余的，但主机不是，如果整个主机坏了，那么文件也将不能访问。MogileFS在不同的机器之间进行文件复制，因此文件始终是可用的。
* 传输中立，无特殊协议——MogileFS客户端可以通过NFS或HTTP来和MogileFS的存储节点来通信，但首先需要告知跟踪器一下。
* 简单的命名空间——文件通过一个给定的key来确定，是一个全局的命名空间。可以自己生成多个命名空间，只要愿意，不过这样可能在同一MogileFS中会造成key冲突。
* 不用共享任何东西——MogileFS不需要依靠昂贵的SAN来共享磁盘，每个机器只用维护好自己的磁盘。
* 不需要RAID——在MogileFS中的磁盘可以是做了RAID的也可以是没有，如果是为了安全性着想的话RAID没有必要买了，因为MogileFS已经提供了。
* 不会碰到文件系统本身的不可知情况——在MogileFS中的存储节点的磁盘可以被格式化成多种格式(ext3,reiserFS等等)。MogilesFS会做自己内部目录的哈希，所以它不会碰到文件系统本身的一些限制，比如一个目录中的最大文件数。可以放心使用。

安装步骤
mogileFS 使用perl编写的，在安装前应该先安装好perl。同时mogileFS也需要一个数据库用来保存文件数据的跟踪信息(目前好像可以使用MySQL推荐：SQLite、Oracle、PostgreSQL)。

mogileFS 适合于静态存储，就是那种一次保存，多次读取型的资源，比如以html方式静态化处理的动态文件，图片文件，其他只提供下载的文件等。

组成MogileFS的组件
1) 数据库(MySQL)部分
你可以用mogdbsetup程序来初始化数据库。数据库保存了Mogilefs的所有元数据，你可以单独拿数据库服务器来做，也可以跟其他程序跑在一起，数据库部分非常重要，类似邮件系统的认证中心那么重要，如果这儿挂了，那么整个Mogilefs将处于不可用状态。因此最好是HA结构。
2) 存储节点
mogstored程序的启动将使本机成为一个存储节点。启动时默认去读/etc/mogilefs/mogstored.conf ，具体配置可以参考配置部分。mogstored启动后，便可以通过mogadm增加这台机器到cluster中。一台机器可以只运行一个 mogstored作为存储节点即可，也可以同时运行其他程序。
3) trackers(跟踪器)
mogilefsd即trackers程序，类似mogilefs的wiki上介绍的，trackers做了很多工作，Replication ，Deletion，Query，Reaper，Monitor等等。mogadm,mogtool的所有操作都要跟trackers打交道，Client的一些操作也需要定义好trackers，因此最好同时运行多个trackers来做负载均衡。trackers也可以只运行在一台机器上，也可以跟其他程序运行在一起，只要你配置好他的配置文件即可，默认在/etc/mogilefs/mogilefsd.conf。
4) 工具
主要就是mogadm，mogtool这两个工具了，用来在命令行下控制整个mogilefs系统以及查看状态等等。
5) Client
Client实际上是一个Perl的pm，可以写程序调用该pm来使用mogilefs系统，对整个系统进行读写操作。

MogileFS应用中的几个重要概念
domain：最高域，在一个域下key是唯一的。
class：包含在domain中，可以针对每一个class定义保存的份数。
key：对文件的唯一标识。
file：文件。

适用性
由于Mogilefs不支持对一个文件的随机读写，因此注定了只适合做一部分应用。比如图片服务，静态HTML服务。即文件写入后基本上不需要修改的应用，当然也可以生成一个新的文件覆盖上去。

工作方式
MogileFS由如下一些部分构成:

* Application: 想要保存/加载文件的应用
* Tracker (the mogilefsd process): 基于事件的(event-based) 父进程/消息总线来管理所有来之于客户端应用的交互(requesting operations to be performed), 包括将请求负载平衡到 “query workers” 中，让mogilefsd的子进程去处理. 你可以在不同的机器上运行两个Tracker, 为了高可用性, 或使用更多的Tracker为了负载平衡(你需要运行多于两个的Tracker). mogilefsd的子进程有:
o Replication — 个机器间复制文件
o Deletion — 从命名空间删除是立即的，从文件系统删除是异步的
o Query — 响应客户端的请求
o Reaper — 在磁盘失败后将文件复制请求重新放到队列中
o Monitor — 监测主机和设配的健康度和状态
o …
* Database — 数据库用来存放MogileFS的元数据 (命名空间, 和文件在哪里). 这应该设置一个高可用性(HA)的环境以防止单点失败.
* Storage Nodes — 实际文件存放的地方. 存储节点是一个HTTP服务器，用来做删除，存放等事情，任何WebDAV服务器都可以, 不过推荐使用 mogstored 。 mogilefsd 可以配置到两个机器上使用不同端口… mogstored 为所有 DAV 操作 (和流量监测), 并且你自己选择的快速的HTTP服务器用来做 GET 操作(给客户端提供文件). 典型的用户没一个加载点有一个大容量的 SATA 磁盘，他们被加载到 /var/mogdata/devNN.

High-level 流程：
* 应用程序请求打开一个文件 (通过RPC 通知到 tracker, 找到一个可用的机器). 做一个 “create_open” 请求.
* tracker 做一些负载均衡(load balancing)处理，决定应该去哪儿，然后给应用程序一些可能用的位置。
* 应用程序写到其中的一个位置去 (如果写失败，他会重新尝试并写到另外一个位置去).
* 应用程序 (client) 通过”create_close” 告诉tracker文件写到哪里去了.
* tracker 将该名称和域命的名空间关联 (通过数据库来做的)
* tracker, 在后台, 开始复制文件，知道他满足该文件类别设定的复制规则
* 然后应用程序通过 “get_paths” 请求 domain+key (key == “filename”) 文件, tracker基于每一位置的I/O繁忙情况回复(在内部经过 database/memcache/etc 等的一些抉择处理), 该文件可用的完整 URLs地址列表.
* 应用程序然后按顺序尝试这些URL地址(tracker’持续监测主机和设备的状态，因此不会返回死连接,默认情况下他对返回列表中的第一个元素做双重检查，除非你不要他这么做..)

最新版本：2
v2.73于2018年1月发布。

项目主页：https://github.com/mogilefs/