分布式文件系统FastDFS架构及工作原理详解
2018-07-13 08:53:47来源:编程学习网 阅读 ()
1.FastDFS是什么
FastDFS是一款类Google FS的开源分布式文件系统,它用纯C语言实现,支持Linux、FreeBSD、AIX等UNIX系统。它只能通过 专有API对文件进行存取访问,不支持POSIX接口方式,不能mount使用。
准确地讲,Google FS以及FastDFS、mogileFS、 HDFS、TFS等类Google FS都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。
FastDFS的作者是余庆,现在淘宝网Java中间件团队从事Java基础平台研发工作。
2.FastDFS的体系结构
3.FastDFS工作过程
文件上传:
1. Client询问Tracker server上传到的Storage server;
2. Tracker server返回一台可用的Storage server,返回的数据为该Storage server的IP地址和端口;
3. Client直接和该Storage server建立连接,进行文件上传,Storage server返回新生成的文件ID,文件上传结束。
文件下载:
1. Client询问Tracker server可以下载指定文件的Storage server,参数为文件ID(包含组名和文件名);
2. Tracker server返回一台可用的Storage server;
3. Client直接和该Storage server建立连接,完成文件下载。
FastDFS从V1.20开始,支持通过HTTP协议下载文件
1.用户浏览器访问Tracker server内置的Web Server,URL中包含文件ID(包含组名和文件名);
2.Tracker server将这个HTTP请求redirect到一台可用的Storage server的Web Server上(可以是apache或nginx);
3.用户浏览器直接与Storage server的Web Server建立连接,完成文件下载。
4.客户端访问方式
有两种客户端访问方式,一种直接访问前端tracker server ,tracker_server将请求redirect到后端能提供服务的storage server,storage server收到请求后直接返回文件给客户端。
一种是客户端直接访问storage server请求得到结果,storage server 可以使用自己的简单HTTP服务,也可以用fastdfs-nginx-module和nginx、apache整合提供HTTP服务。
5.服务器端目录结构
FastDFS服务器端运行时目录结构如下:
${base_path}
|__data:存放状态文件
|__logs:存放日志文件
其中,${base_path}由配置文件中的参数“base_path”设定。
tracker server
tracker server目录及文件结构:
${base_path}
|__data
| |__storage_groups.dat:存储分组信息
| |__storage_servers.dat:存储服务器列表
|__logs
|__trackerd.log:tracker server日志文件
数据文件storage_groups.dat和storage_servers.dat中的记录之间以换行符(\n)分隔,字段之间以西文逗号(,)分隔。
storage_groups.dat中的字段依次为:
(1) group_name:组名
(2) storage_port:storage server端口号
storage_servers.dat中记录storage server相关信息,字段依次为:
(1) group_name:所属组名
(2) ip_addr:ip地址
(3) status:状态
(4) sync_src_ip_addr:向该storage server同步已有数据文件的源服务器
(5) sync_until_timestamp:同步已有数据文件的截至时间(UNIX时间戳)
(6) stat.total_upload_count:上传文件次数
(7) stat.success_upload_count:成功上传文件次数
(8) stat.total_set_meta_count:更改meta data次数
(9) stat.success_set_meta_count:成功更改meta data次数
(10) stat.total_delete_count:删除文件次数
(11) stat.success_delete_count:成功删除文件次数
(12) stat.total_download_count:下载文件次数
(13) stat.success_download_count:成功下载文件次数
(14) stat.total_get_meta_count:获取meta data次数
(15) stat.success_get_meta_count:成功获取meta data次数
(16) stat.last_source_update:最近一次源头更新时间(更新操作来自客户端)
(17) stat.last_sync_update:最近一次同步更新时间(更新操作来自其他storage server的同步)
storage server
storage server目录及文件结构:
${base_path}
|__data
| |__.data_init_flag:当前storage server初始化信息
| |__storage_stat.dat:当前storage server统计信息
| |__sync:存放数据同步相关文件
| | |__binlog.index:当前的binlog(更新操作日志)文件索引号
| | |__binlog.###:存放更新操作记录(日志)
| | |__${ip_addr}_${port}.mark:存放向目标服务器同步的完成情况
| |
| |__一级目录:256个存放数据文件的目录,目录名为十六进制字符,如:00, 1F
| |__二级目录:256个存放数据文件的目录,目录名为十六进制字符,如:0A, CF
|__logs
|__storaged.log:storage server日志文件
.data_init_flag文件格式为ini配置文件方式,各个参数如下:
# storage_join_time:本storage server创建时间;
# sync_old_done:本storage server是否已完成同步的标志(源服务器向本服务器同步已有数据);
# sync_src_server:向本服务器同步已有数据的源服务器IP地址,没有则为空;
# sync_until_timestamp:同步已有数据文件截至时间(UNIX时间戳);
storage_stat.dat文件格式为ini配置文件方式,各个参数如下:
# total_upload_count:上传文件次数
# success_upload_count:成功上传文件次数
# total_set_meta_count:更改meta data次数
# success_set_meta_count:成功更改meta data次数
# total_delete_count:删除文件次数
# success_delete_count:成功删除文件次数
# total_download_count:下载文件次数
# success_download_count:成功下载文件次数
# total_get_meta_count:获取meta data次数
# success_get_meta_count:成功获取meta data次数
# last_source_update:最近一次源头更新时间(更新操作来自客户端)
#last_sync_update:最近一次同步更新时间(更新操作来自其他storage server)
binlog.index中只有一个数据项:当前binlog的文件索引号
binlog.###,###为索引号对应的3位十进制字符,不足三位,前面补0。索引号基于0,最大为999。一个binlog文件最大为1GB。记录之间以换行符(\n)分隔,字段之间以西文空格分隔。字段依次为:
(1)timestamp:更新发生时间(Unix时间戳)
(2)op_type:操作类型,一个字符
(3)filename:操作(更新)的文件名,包括相对路径,如:5A/3D/FE_93_SJZ7pAAAO_BXYD.S
${ip_addr}_${port}.mark:ip_addr为同步的目标服务器IP地址,port为本组storage server端口。例如:10.0.0.1_23000.mark。文件格式为ini配置文件方式,各个参数如下:
# binlog_index:已处理(同步)到的binlog索引号
# binlog_offset:已处理(同步)到的binlog文件偏移量(字节数)
# need_sync_old:同步已有数据文件标记,0表示没有数据文件需要同步
# sync_old_done:同步已有数据文件是否完成标记,0表示未完成,1表示已完成
# until_timestamp:同步已有数据截至时间点(UNIX时间戳)
# scan_row_count:已扫描的binlog记录数
# sync_row_count:已同步的binlog记录数
数据文件名由系统自动生成,包括三部分:当前时间(Unix时间戳)、文件大小(字节数)和随机数。文件名长度为16字节。文件按照PJW Hash算法hash到65536(256*256,默认配置下)个目录中分散存储。
标签:
版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有
- Centos7下crontab+shell脚本定期自动删除文件 2018-11-22
- 为什么高手离不开Linux系统? 2018-07-13
- 为什么文件名要小写? 2018-07-13
- 系统管理员应该知道的 20 条 Linux 命令 2018-07-13
- linux 定时清理文件脚本 shell 2018-07-13
IDC资讯: 主机资讯 注册资讯 托管资讯 vps资讯 网站建设
网站运营: 建站经验 策划盈利 搜索优化 网站推广 免费资源
网络编程: Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术: Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧: 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷
网页制作: FrontPages Dreamweaver Javascript css photoshop fireworks Flash