巧用MapReduce+HDFS，海量数据去重的五大策略

2019-02-26 来源：多智时代

随着存储数据信息量的飞速增长，越来越多的人开始存储数据的缩减方法。数据压缩、单实例存储和重复数据删除等都是经常使用的存储数据缩减技术。

重复数据删除往往是指消除冗余子文件。不同于压缩，重复数据删除对于数据本身并没有改变，只是消除了相同的数据占用的存储容量。重复数据删除在减少存储、降低网络带宽方面有着显著的优势，并对扩展性有所帮助。

举个简单的例子：在专门为电信运营商定制的呼叫详单去重应用程序中，我们就可以看到删除重复数据的影子。同样的，对于包含相同数据包的通信网络，我们可以使用这种技术来进行优化。

在存储架构中，删除重复数据的一些常用的方法包括：哈希、二进制比较和增量差分。在HadoopSphere这篇文章中，将专注于如何利用MapReduce和HDFS来消除重复的数据。（下面列出的方法中包括一些学者的实验方法，因此把术语定义为策略比较合适）。

策略1：只使用HDFS和MapReduce

Owen O’Malley在一个论坛的帖子中建议使用以下方法：

让你的历史数据按照MD5值进行排序。运行一个MapReduce的作业，将你的新数据按照MD5进行排序。需要注意的是：你要做所有数据的整体排序，但因为MD5是在整个密钥空间中是均匀分布的，排序就变得很容易。

基本上，你挑选一个reduce作业的数量（如256），然后取MD5值的前N位数据来进行你的reduce作业。由于这项作业只处理你的新数据，这是非常快的。接下来你需要进行一个map-side join，每一个合并的输入分块都包含一个MD5值的范围。RecordReader读取历史的和新的数据集，并将它们按照一定方式合并。（你可以使用map-side join库）。你的map将新数据和旧数据合并。这里仅仅是一个map作业，所以这也非常快。

当然，如果新的数据足够小，你可以在每一个map作业中将其读入，并且保持新记录（在RAM中做了排序）在合适的数量范围内，这样就可以在RAM中执行合并。这可以让你避免为新数据进行排序的步骤。类似于这种合并的优化，正是Pig和Hive中对开发人员隐藏的大量细节部分。
策略2：使用HDFS和Hbase

在一篇名为“工程云系统中一种新颖的删除重复数据技术”的论文中，Zhe Sun, Jun Shen, Jianming Young共同提出了一种使用HDFS和Hbase的方法，内容如下：

使用MD5和SHA-1哈希函数计算文件的哈希值，然后将值传递给Hbase

将新的哈希值与现有的值域比较，如果新值已经存在于Hbase去重复表中，HDFS会检查链接的数量，如果数量不为零时，哈希值对应的计数器将增加1。如果数量是零或哈希值在之前的去重复表中不存在，HDFS会要求客户端上传文件并更新文件的逻辑路径。

HDFS将存储由用户上传的源文件，以及相应的链接文件，这些链接文件是自动生成的。链接文件中记录了源文件的哈希值和源文件的逻辑路径。

要注意使用这种方法中的一些关键点：

文件级的重复数据删除需要保持索引数量尽可能小，这样可以有高效的查找效率。

MD5和SHA-1需要结合使用从而避免偶发性的碰撞。

策略3：使用HDFS，MapReduce和存储控制器

由Netapp的工程师AshishKathpal、GauravMakkar以及Mathew John三人联合，在一篇名为“在后期处理重复数据删除的分布式重复检测方式”的文章中，提出通过使用HadoopMapReduce的重复检测机制来替代Netapp原有的重复检测环节，文中提到的基于重复检测的Hadoop工作流包含如下几个环节：

将数据指纹（Fingerprint）由存储控制器迁移到HDFS

生成数据指纹数据库，并在HDFS上永久存储该数据库

使用MapReduce从数据指纹记录集中筛选出重复记录，并将去重复后的数据指纹表保存回存储控制器。

数据指纹是指存储系统中文件块经过计算后的哈希索引，通常来说数据指纹要比它代表的数据块体积小的多，这样就可以减少分布式检测时网络中的数据传输量。
在不久的将来，云计算一定会彻底走入我们的生活，有兴趣入行未来前沿产业的朋友，可以收藏云计算，及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识，让我们一起携手，引领人工智能的未来！

标签：大数据数据库通信网络云计算

版权申明：本站文章部分自网络，如有侵权，请联系：west999com@outlook.com
特别注意：本站所有转载文章言论不代表本站观点！
本站所提供的图片等素材，版权归原作者所有，如需使用，请与原作者联系。

上一篇:保证云端数据安全的三大建议

下一篇:这些“隐情”你了解多少?深挖云存储现状

最新资讯

热门推荐