首页 > > 服务器技术 > Web服务器 >

分布式文件系统FastDFS架构及工作原理详解

2018-07-13 08:53:47来源：编程学习网阅读 ()

1.FastDFS是什么

FastDFS是一款类Google FS的开源分布式文件系统，它用纯C语言实现，支持Linux、FreeBSD、AIX等UNIX系统。它只能通过专有API对文件进行存取访问，不支持POSIX接口方式，不能mount使用。

准确地讲，Google FS以及FastDFS、mogileFS、 HDFS、TFS等类Google FS都不是系统级的分布式文件系统，而是应用级的分布式文件存储服务。

FastDFS的作者是余庆，现在淘宝网Java中间件团队从事Java基础平台研发工作。

2.FastDFS的体系结构

fastdfs架构

3.FastDFS工作过程

文件上传：

1. Client询问Tracker server上传到的Storage server；

2. Tracker server返回一台可用的Storage server，返回的数据为该Storage server的IP地址和端口；

3. Client直接和该Storage server建立连接，进行文件上传，Storage server返回新生成的文件ID，文件上传结束。

fastdfs处理文件上传

文件下载：

1. Client询问Tracker server可以下载指定文件的Storage server，参数为文件ID（包含组名和文件名）；

2. Tracker server返回一台可用的Storage server；

3. Client直接和该Storage server建立连接，完成文件下载。

fastdfs处理文件下载

FastDFS从V1.20开始，支持通过HTTP协议下载文件

1.用户浏览器访问Tracker server内置的Web Server，URL中包含文件ID（包含组名和文件名）;

2.Tracker server将这个HTTP请求redirect到一台可用的Storage server的Web Server上(可以是apache或nginx)；

3.用户浏览器直接与Storage server的Web Server建立连接，完成文件下载。

fastdfs支持HTTP下载

4．客户端访问方式

有两种客户端访问方式，一种直接访问前端tracker server ，tracker_server将请求redirect到后端能提供服务的storage server，storage server收到请求后直接返回文件给客户端。

一种是客户端直接访问storage server请求得到结果，storage server 可以使用自己的简单HTTP服务，也可以用fastdfs-nginx-module和nginx、apache整合提供HTTP服务。

5.服务器端目录结构

FastDFS服务器端运行时目录结构如下：
${base_path}
|__data：存放状态文件
|__logs：存放日志文件
其中，${base_path}由配置文件中的参数“base_path”设定。

tracker server
tracker server目录及文件结构：
${base_path}
|__data
| |__storage_groups.dat：存储分组信息
| |__storage_servers.dat：存储服务器列表
|__logs
|__trackerd.log：tracker server日志文件
数据文件storage_groups.dat和storage_servers.dat中的记录之间以换行符（\n）分隔，字段之间以西文逗号（,）分隔。
storage_groups.dat中的字段依次为：
(1) group_name：组名
(2) storage_port：storage server端口号

storage_servers.dat中记录storage server相关信息，字段依次为：
(1) group_name：所属组名
(2) ip_addr：ip地址
(3) status：状态
(4) sync_src_ip_addr：向该storage server同步已有数据文件的源服务器
(5) sync_until_timestamp：同步已有数据文件的截至时间（UNIX时间戳）
(6) stat.total_upload_count：上传文件次数
(7) stat.success_upload_count：成功上传文件次数
(8) stat.total_set_meta_count：更改meta data次数
(9) stat.success_set_meta_count：成功更改meta data次数
(10) stat.total_delete_count：删除文件次数
(11) stat.success_delete_count：成功删除文件次数
(12) stat.total_download_count：下载文件次数
(13) stat.success_download_count：成功下载文件次数
(14) stat.total_get_meta_count：获取meta data次数
(15) stat.success_get_meta_count：成功获取meta data次数
(16) stat.last_source_update：最近一次源头更新时间（更新操作来自客户端）
(17) stat.last_sync_update：最近一次同步更新时间（更新操作来自其他storage server的同步）

storage server
storage server目录及文件结构：
${base_path}
|__data
|     |__.data_init_flag：当前storage server初始化信息
|     |__storage_stat.dat：当前storage server统计信息
|     |__sync：存放数据同步相关文件
|     |     |__binlog.index：当前的binlog（更新操作日志）文件索引号
|     |     |__binlog.###：存放更新操作记录（日志）
|     |     |__${ip_addr}_${port}.mark：存放向目标服务器同步的完成情况
|     |
|     |__一级目录：256个存放数据文件的目录，目录名为十六进制字符，如：00, 1F
|           |__二级目录：256个存放数据文件的目录，目录名为十六进制字符，如：0A, CF
|__logs
|__storaged.log：storage server日志文件
.data_init_flag文件格式为ini配置文件方式，各个参数如下：
# storage_join_time：本storage server创建时间；
# sync_old_done：本storage server是否已完成同步的标志（源服务器向本服务器同步已有数据）；
# sync_src_server：向本服务器同步已有数据的源服务器IP地址，没有则为空；
# sync_until_timestamp：同步已有数据文件截至时间（UNIX时间戳）；

storage_stat.dat文件格式为ini配置文件方式，各个参数如下：
# total_upload_count：上传文件次数
# success_upload_count：成功上传文件次数
# total_set_meta_count：更改meta data次数
# success_set_meta_count：成功更改meta data次数
# total_delete_count：删除文件次数
# success_delete_count：成功删除文件次数
# total_download_count：下载文件次数
# success_download_count：成功下载文件次数
# total_get_meta_count：获取meta data次数
# success_get_meta_count：成功获取meta data次数
# last_source_update：最近一次源头更新时间（更新操作来自客户端）
#last_sync_update：最近一次同步更新时间（更新操作来自其他storage server）

binlog.index中只有一个数据项：当前binlog的文件索引号

binlog.###，###为索引号对应的3位十进制字符，不足三位，前面补0。索引号基于0，最大为999。一个binlog文件最大为1GB。记录之间以换行符（\n）分隔，字段之间以西文空格分隔。字段依次为：
(1)timestamp：更新发生时间（Unix时间戳）
(2)op_type：操作类型，一个字符
(3)filename：操作（更新）的文件名，包括相对路径，如：5A/3D/FE_93_SJZ7pAAAO_BXYD.S

${ip_addr}_${port}.mark：ip_addr为同步的目标服务器IP地址，port为本组storage server端口。例如：10.0.0.1_23000.mark。文件格式为ini配置文件方式，各个参数如下：
# binlog_index：已处理（同步）到的binlog索引号
# binlog_offset：已处理（同步）到的binlog文件偏移量（字节数）
# need_sync_old：同步已有数据文件标记，0表示没有数据文件需要同步
# sync_old_done：同步已有数据文件是否完成标记，0表示未完成，1表示已完成
# until_timestamp：同步已有数据截至时间点（UNIX时间戳）
# scan_row_count：已扫描的binlog记录数
# sync_row_count：已同步的binlog记录数

数据文件名由系统自动生成，包括三部分：当前时间（Unix时间戳）、文件大小（字节数）和随机数。文件名长度为16字节。文件按照PJW Hash算法hash到65536（256*256，默认配置下）个目录中分散存储。

标签：

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点，本站所提供的摄影照片，插画，设计作品，如需使用，请与原作者联系，版权归原作者所有