La cantidad necesaria de secuenciación de ADN se podrá predecir mediante un algoritmo

28/02/2013 - E.P.

Algunas aplicaciones clínicas de la secuenciación del ADN se convertirán en rutina en los próximos cinco a diez años

Científicos de la Universidad del Sur de California (USC), en Estados Unidos, han desarrollado un algoritmo para predice cuánto se puede aprender en un experimento con la secuenciación de ADN a gran escala, con potenciales aplicaciones en todos los campos de la ciencia
Andrew Smith, biólogo informático en Escuela Dornsife de Letras, Artes y Ciencias de la USC, desarrolló el algoritmo para ayudar a predecir el valor de la secuenciación de ADN. Su trabajo se publica en la revista Nature Methods.
La obtención de información a partir del ADN significa decidir cuánto se secuencia: si se secuencia muy poco, es posible que no se obtengan las respuestas que se están buscando, pero si se secuencia demasiado, puede desperdiciarse tiempo y dinero.
Parece probable que algunas aplicaciones clínicas de la secuenciación del ADN se convertirán en rutina en los próximos cinco a diez años, afirmó Smith. "Por ejemplo, la secuenciación de diagnóstico para comprender las propiedades de un tumor será mucho más eficaz si los métodos matemáticos adecuados están en su lugar".
Lo interesante del algoritmo de Smith y Daley, que predice el tamaño y la composición de una población invisible sobre la base de una muestra pequeña, se encuentra en su amplia aplicabilidad. "Este es uno de esos casos donde un desafío específico de nuestra investigación nos llevó a descubrir un potente algoritmo que tiene aplicaciones sorprendentemente amplias", dijo Smith.
Como ejemplo de su utilidad, médicos de salud pública podrían usar el algoritmo para calcular la población de individuos VIH positivos, los astrónomos podrían destinarlo a determinar cómo muchos exoplanetas existen en nuestra galaxia basándose en los que ya han descubierto, y los biólogos tendrían la posibilidad de utilizarlo para estimar la diversidad de anticuerpos en un individuo.
Los fundamentos matemáticos del algoritmo se basan en un modelo de toma de muestras de la ecología, que se conoce como captura-recaptura. En este sistema, los individuos son capturados y etiquetados de manera que una recaptura de un mismo individuo se sabrá, por lo que el número de veces que cada individuo fue capturado puede utilizarse para hacer inferencias sobre la población como un todo.
El modelo básico se conoce desde hace décadas, pero la forma en que ha sido utilizado hace que sea muy inestable en la mayoría de las aplicaciones. Tomamos un enfoque diferente, que depende de la cantidad de potencia de cálculo y parece funcionar mejor en aplicaciones a gran escala como la moderna secuenciación del ADN, dijo Daley.
Los científicos se enfrentaron a un problema similar en los primeros días del proyecto de secuenciación del genoma humano. Michael Waterman de la USC, proporcionó una solución matemática en 1988, pero los recientes avances en la tecnología de secuenciación requieren de un pensamiento diferente acerca de las propiedades matemáticas de los datos de secuenciación de ADN, según los autores del nuevo algoritmo.