Header Ads

Deduplicación

La cantidad de datos colosales que almacenamos diariamente es algo que puede salirse de control, cuando se trata de información duplicada, incremental, o el llamado backup "pánico", que no es más que copias de seguridad de datos críticos, que se activan presionando un solo botón o comando que dispara una secuencia de acciones para salvaguardar los datos. (Ojo, no confundir con el modo pánico en los firewalls, que son comandos que se activan para sacar un servidor de línea cuando es atacado y tampoco confundir con el "botón de pánico" ( LifeButton Lite) para Iphone, que es una app que envia un mail pidiendo auxilio y adjunta coordenadas y si tienes suerte envía un mensaje de voz, foto o texto.)
Si esto sucede con nuestros datos personales, lleven esto al plano empresarial o a los servidores espejo, NAS, etc... Un caos
Para solucionarlo, varias empresas han diseñado sistemas avanzados de backup con una nueva alternativa llamada deduplicación.
De acuerdo al portal Tecnología Pyme, la deduplicación es "una técnica de respaldo que elimina los datos redundantes almacenados, guardando una única copia idéntica de los datos, y reemplazando las copias redundantes por indicadores que apuntan a esa única copia. Por ejemplo. Pongamos una empresa con 50 empleados que reciben un correo enviado a toda la empresa de 1MB. Si cada usuario guarda el archivo adjunto en su ordenador, la copia se replicará 50 veces cuando se realice el respaldo de los puestos de trabajo, lo que consumirá 49MB más de espacio de lo necesario"
¿Y cómo lo hace?.. Simple. Colocando un enlace en reemplazo del dato repetido, que apunta hacia el archivo maestro o único, "utilizando estas técnicas se consiguen ahorros de espacio en torno a 3:1 y 500:1", según afirma este portal..
Y no solo esto;  Quantum asegura que su tecnología "permite aumentar el rendimiento de los discos, al tiempo que reduce en 90% o más los requerimientos de capacidad; mejora la protección y reduce los costos. Los clientes reportan un aumento de 125% en promedio en el rendimiento del backup, una disminución de 87% en los errores de backup y una reducción de 90% o más (95% en entornos virtuales) en la capacidad de disco típica. Además, se puede reducir el gasto de adquisición de medios casi a la mitad, reducir el tiempo total de administración del backup en 63% y reducir hasta el 97% de los costos de recuperación de medios; todo esto con un tiempo de amortización típico de cuatro a seis meses.
La deduplicación se da en ambos extremos: destino (cliente) y fuente (servidor). En ambos casos el objetivo es reducir el consumo excesivo e innecesario en nuestros sistemas de almacenamiento.
Hay algunas herramientas que permiten esto, tales como CommVault Simpana, Symantec NetBackup PureDisk Media Server, BackupPC y la deduplicación de VTL de NetApp, entre otros
Parece ideal, pero...
De acuerdo con el Dr.  W.Curtis Preston, reconocido especialista en backup y a nuestra experiencia en esta área, la deduplicación presenta los siguientes "peros":
1. Si tiene datos encriptados (Ej: Windows Encrypted Filesystem), su sistema de deduplicación, el ratio de deduplicación será por lo general 1:1, ya que los sistemas de deduplicación buscan patrones y los sistemas de cifrado eliminan los patrones.
2. Si tiene datos comprimidos, su sistema de deduplicación, al terminar su tarea, comprime los datos, por tanto no habrá efectos de reducción en el ratio. Además, la compresión "mezcla" los datos, por consecuencia su app de deduplicación tendrá dificultades para encontrar el patrón en su información que le permita realizar su trabajo.
3. Los datos de sistema o generados por las computadoras y servidores no se deduplican bien
4. Los sistemas de multiplexado (backup de cintas físicas a virtuales (VTL) son deficientes y no mejoran el ratio. Aplicaciones, como NetAPP, hacen alardes de algoritmos avanzados que "utiliza tamaños de bloques variables y desplazamientos de bytes variables, y filtros de omisión, para identificar los datos replicados con cualquier desplazamiento y optimizar la eficiencia a la hora de deduplicar los flujos de datos de backup", pero no garantizan nada.
5. Deduplicación online vs offline: En el método online, los datos replicados no llegan al disco, sin embargo se corre el riesgo de ralentizar las aplicaciones que escriben los flujos de datos, y de paso el backup. En el modo offline hay que hacer deduplicación postprocesamiento en el disco duro lo cual implica doble carga: la del backup y la de la deduplicación.
6. Los datos temporales, corruptos, etc, etc, que las estaciones y servidores almacenan por montones a lo largo de su vida útil, producto de las aplicaciones que los generan, procesos abiertos, y un largo etc, no son considerados por los sistemas de deduplicación, y que al ser archivos generados automáticamente, no los toma correctamente y por tanto no son objeto de deduplicación... y pasan a ser parte del backup 
Debido a lo anterior, a nuestro juicio, la deduplicación no es una técnica que deba considerarse a la hora de respaldar nuestros datos críticos.
Solución
Utilice aplicaciones o scripts para determinar, comparar y depurar los datos duplicados, temporales, corruptos, etc, en su estación de trabajo o servidor y en reemplazo de la deduplicación, use técnicas de clonación incremental o clonación virtual
Con la tecnología de Blogger.