Muestras de ADN como medio de almacenamiento masivo; algunos avances

Los científicos Yaniv Erlich y Dina Zielinski, del Centro del Genoma de Nueva York y de la Universidad de Columbia, codificaron una película, junto con un sistema operativo de computadora, una foto, un documento científico, un virus informático, y una tarjeta de regalo de Amazon.


Utilizaron una nueva estrategia, basada en los códigos que permiten transmitir películas de forma fiable a través de Internet. De esta manera, lograron empaquetar los archivos digitales en cantidades de ADN de registro segmentado. Un disco duro de un terabyte pesa actualmente alrededor de 150 gramos. Usando sus métodos, Erlich y Zielinski pueden acomodar 215.000 veces más datos en un solo gramo de ADN. Usted podría cargar con todos los datos del mundo en la parte trasera de un automóvil.

El almacenamiento de información en el ADN no es nuevo: la diversas formas de vida lo ha estado haciendo mientras la vida haya existido. La molécula se parece a una escalera de torsión, cuyos peldaños están hechos de cuatro bloques de construcción, designados por las letras A, C, G y T. La secuencia de estas letras codifica las instrucciones para construir cada cosa viva. Y si puedes convertir los unos y los ceros de datos digitales en esas cuatro letras, puedes usar el ADN para codificar casi cualquier cosa.

¿Por qué molestarse? Porque el ADN tiene ventajas que otros medios de almacenamiento no tienen. Toma mucho menos espacio. Es muy resistente, siempre y cuando se mantenga frío, seco y oscuro. El ADN de mamuts que murieron hace miles de años todavía puede ser extraído y secuenciado. Y quizás lo más importante, tiene un récord de 3,7 mil millones de años. Discos flexibles, discos VHS, discos zip, discos láser, cintas de cassette ... cada formato de los medios eventualmente se vuelve obsoleto, y cada nuevo formato obliga a la gente a comprar nuevos dispositivos de lectura y actualizar sus archivos. Pero el ADN nunca llegará a ser obsoleto. Tiene una importancia tan central que los biólogos siempre quieren estudiarla. Los secuenciadores seguirán mejorando, pero siempre habrá secuenciadores.

George Church de la Universidad de Harvard hizo una incursión en el almacenamiento sobre ADN en 2011, la codificación de su libro recién publicado, algunas imágenes, y un programa de Javascript. Un año más tarde, Nick Goldman y Ewan Birney del Instituto Europeo de Bioinformática mejoraron sus esfuerzos, con una cifra más compleja. Codificaron todos los sonetos de Shakespeare, un clip del discurso "Tengo un sueño" de Martin Luther King, un PDF del artículo de James Watson y Francis Crick que detallaba la estructura del ADN y una foto de su instituto en una muestra de ADN tan pequeña que cuando llegó a su laboratorio, Goldman no la pudo apreciar a simple vista. Aunque estaba mirando a un tubo vacío.

La gran captura con el ADN es que sólo podemos crear y secuenciar como pequeños tramos, unos pocos cientos de letras de largo. Así que si quieres codificar una gran parte de los datos, necesitas descomponerlo y sintetizarlo como una sopa desordenada de fragmentos de ADN. Es difícil garantizar que todos estos estén representados de manera uniforme, por lo que existe el riesgo de perder bits de datos.

"Si hubiéramos codificado esa canción de Let It Go, nos quedaríamos sin ADN dentro de una semana".

Goldman y Birney se enfrentaron a esto creando un código superpuesto, de modo que cada bit de datos estaba representado por al menos cuatro fragmentos de ADN. Si perdieron uno, la misma información seguiría existiendo en otros tres lugares. Fue una buena estrategia, pero también un poco ineficiente. Y no era perfecta: el equipo todavía encontraba algunos errores cuando intentaban recuperar sus archivos. "Pensé que podíamos hacer algo más eficiente y robusto", dice Erlich.

Coincidentemente, los servicios de transmisión en línea como Netflix y Spotify se enfrentan a un problema similar. Ellos envían información a través de canales intermitentes, y también necesitan recuperar esos datos a la perfección, independientemente de los fragmentos que faltan. Ellos solucionan el problema usando una técnica de codificación denominada fountain codes  -un método de codificación que divide los datos en pequeños paquetes (o "gotitas") de tal manera que se puede recuperar toda la cosa aunque sólo se acerque un subconjunto aleatorio. Siempre y cuando usted puede capturar suficientes gotas, independientemente de cuáles pierda, puede reconstruir toda la corriente. Erlich lo compara con hacer un rompecabezas gigante de Sudoku: Si algunas de las casillas se llenan, puedes deducir lo que los otros son.

Esta vez, usando fountain codes, el dúo desarrolló un cifrado que es 60 por ciento más eficiente que los anteriores, y se acerca al límite de la densidad con la que la información puede ser empaquetada en el ADN. "Estamos muy cerca de una configuración óptima", dice Erlich.

Utilizaron este sistema, que llaman fuente de ADN, para codificar: la película del tren; KolibriOS, el sistema operativo de computadora más pequeño alrededor; La imagen que fue enviada en las sondas Pioneer 10 y 11; Un artículo científico que describe cuánta información puede caber en un medio dado; Un virus llamado Zipbomb que llena su disco duro con basura ("Pensamos que sería divertido", dice Erlich); Y una tarjeta de regalo de Amazon valorada en  $50. (Este último ya ha sido descifrado y gastado, por uno de los seguidores de Twitter de Erlich.)

Terminaron con una biblioteca de 72.000 fragmentos de ADN, que luego secuenciaron, decodificaron y volvieron a reunirse. En el proceso, perdieron más de 2.000 de los fragmentos, pero todavía lograron recrear los archivos perfectamente.

El almacenamiento de ADN tiene otra debilidad. El acto de secuenciar los hilos también los destruye, por lo que este es un medio de almacenamiento que gradualmente desaparece a medida que se lee. "Mi hija ama a Frozen", dice Erlich. "Si hubiéramos codificado esa canción de Let It Go, nos quedaríamos sin ADN dentro de una semana". Afortunadamente, el ADN, por su naturaleza, también es muy fácil de copiar, por lo que es trivial duplicar un caché de datos de ADN codificados. Cada vez que se hace esto, se corre el riesgo de introducir errores: las copias de copias rara vez son idénticas a las originales. Pero las fuente de ADN es tan resistente a los errores que incluso cuando Zielinski copió la caché de datos diez veces, todavía  se podían recuperar los archivos perfectamente.

Fuente:
https://www.theatlantic.com/
Share this article

0 Comentarios :

Publicar un comentario

Ahora dinos que opinas!

 
Copyright © 2014 ru-nuel.com • All Rights Reserved.
Distributed By Free Blogger Templates | Template Design by BTDesigner • Powered by Blogger