- 重复数据删除(De-duplication)
重复数据删除(De-duplication,简称Dedupe)是一种目前主流且非常热门的存储技术,可对存储容量进行有效优化。它通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。如下图所示。这种技术可以很大程度上减少对物理存储空间的需求,从而满足日益增长的数据存储需求。Dedupe技术可以带许多实际的利益,主要包括以下诸多方面:
- 满足投资回报率/TCO(总持有成本,Total Cost of Ownership)需求
- 可以有效控制数据的急剧增长;
- 增加有效存储空间,提高存储效率;
- 节省存储总成本和管理成本;
- 节省数据传输的网络带宽;
- 节省空间、电力供应、冷却等运维成本。
Dedupe技术目前大量应用于数据备份与归档系统,因为对数据进行多次备份后,存在大量重复数据,非常适合这种技术。事实上,dedupe技术可以用于很多场合,包括在线数据、近线数据、离线数据存储系统,可以在文件系统、卷管理器、NAS、SAN中实施。Dedupe也可以用于数据容灾、数据传输与同步,作为一种数据压缩技术可用于数据打包。Dedupe技术可以帮助众多应用降低数据存储量,节省网络带宽,提高存储效率、减小备份窗口,节省成本。
ReadyDATA 5200利用“在线”的Dedupe技术,对存储数据流以一定的目标尺寸(数据块级别)进行指纹校验,对于其中重复出现的数据单元,在实际写入存储磁盘时,只记录相应的指纹记录位置,因此极大的降低了存储空间的消耗。
- 数据压缩(compression)
数据压缩是指在不丢失信息的前提下,按照一定的算法对数据进行重新组织,缩减数据量以减少存储空间,提高其传输、存储和处理效率的一种技术方法。当将数据备份入ReadyDATA 5200时,ReadyDATA 5200将执行一系列压缩算法,对数据进行压缩存储,进一步节省存储空间,并且不影响性能。
- 创建两个相同的对比环境
- 创建两个卷
为了对比开启和未开启重复数据删除和数据压缩的区别,我们在ReadyDATA 5200上创建两个相同的卷,使用相同类型、数量、大小的硬盘,并且都是用RAID5方式。
- 创建共享区
在卷vol1中创建两个共享区:share1和share2。这两个共享区均开启重复数据删除和数据压缩功能(见下图)。
同时,在卷vol2中也创建两个共享区:share3和share4。这两个共享区均关闭重复数据删除和数据压缩功能。
给这4个共享区均配置好相关用户访问权限后,对比环境即搭建完毕。本例中可看到4个共享区新建出来后,卷的可用空间都是3.6GB。
- 拷入数据
- 共享区内有大量重复数据
在本地找一个有大量重复数据的文件夹,将其分别拷入share1和share3中,例如本例中使用NCSE各阶段教材的一个文件夹,此文件夹存在较多重复内容,共1.51GB。
传输完毕后,我们可在卷窗口中看到卷vol1和vol2的区别。
可以看到,两个卷的有效数据(Data)都是显示1.5GB,但vol1的剩余可用空间(Free)为2.9GB,远远大于vol2的2.1GB。实际上vol1的大小只有3.6GB,也就是说,share1里传入1.5GB实际数据后,经过重复数据删除和数据压缩,只占用了约700MB(3.6GB-2.9GB)空间。而share3因为没有启用重复数据删除和数据压缩,因此实打实的使用了1.5GB空间。
- 有重复内容的共享区
为进一步验证重复数据删除和数据压缩的效果,我们再把share2和share4也拷入相同的内容。
这时可以看到,使用了重复数据删除和数据压缩的vol1的剩余可用空间(Free)为2.8GB,跟之前几乎没有太大变化;而没有使用重复数据删除和数据压缩的vol2的可用空间只剩500多MB了。
从上面的对比可以得出结论,因使用了重复数据删除和数据压缩技术,ReadyDATA 5200确实可以显著的节省更多的空间,大大提升存储效率。
序号 no. |
日期 date |
作者 author |
摘要 summary |
1 |
2012-09-26 |
Canfeng Li |
文档创建 |