那什么时候适合使用重复数据删除呢?
重复数据删除(简称重删)是在一个数据集中删除冗余数据块的方法。
只有独一无二的数据块会被写到硬盘,任何跟当前数据块一样的新数据都将指引到当前数据集。
这意味着硬盘的容量都将会用于独一无二的数据块。通过使用由多个inodes共享的数据块来维护正常的文件结构。因此通过在内存中保存一份重删表格可以极大的增强硬盘使用效率,新到的数据将会和现有数据进行对比,然后冗余的数据块将不会占用硬盘空间。
也就是说,这将会需要极大的内存开销。而内存需要分配的空间将会和实际写到硬盘的独一的数据块成正比。一个重删表格条目大约占用320字节乘以它援引的独一数据块的数目。20TB独一的数据存在128K的记录中或者说1TB的独一数据存放在8K的记录中都将需要大约32GB的物理内存。
所以要谨慎选择是否使用重复数据删除。如果您的数据很大可能会有重复的数据块,那么使用一个适当大小的数据集然后开启这个功能。
例如:
如果一个数据集主要是用于雇员之间的协作,那么将会是非常适合使用重删的。另外,如果同个文档有多个不同版本,并且多数文本是一致的,只是在不同地方有些修改,那么这也是另外一种适合使用重删的情景。
但是,我们强烈建议不要在iSCSI中使用重删。
iSCSI使用小的数据块(8K)以便让不同的文件系统管理和对齐。因为其颗粒度更小导致其对重复数据删除表格的影响将会是巨大的,因此其将会消耗非常多的内存。特别是对于“厚置配”类型的LUN,它将会载入一个重删表格指向“空白”的空间。
如果你还是决定要使用重删,我们强烈建议您使用一个读缓存盘。
如果您打算在虚拟化环境中使用重删,我们建议你使用虚拟化系统内置的VM重删系统。
序号 no. |
日期 date |
作者 author |
摘要 summary |
1 |
2013-04-03 |
Canfeng Li |
文档创建 |