Menu

Plataforma de software optimizaría análisis de datos biológicos

Para diseñar esta herramienta se contemplaron escenarios como el análisis de datos biológicos relacionados con cáncer o secuencias de diferentes bacterias.

Bioinformática
Foto: Universidad Autónoma de Manizales
Las pruebas de su funcionamiento se llevaron a cabo con un flujo de procesamiento de datos de RNA-Seq usando información clínica de Mycobacterium tuberculosis, bacteria responsable de la mayoría de los casos de tuberculosis en el mundo.

La plataforma permite procesar y almacenar de manera eficiente la gran cantidad de datos biológicos obtenidos por medio de técnicas moleculares de alto rendimiento que hoy se usan en campos como la biología y la investigación médica.

Jonathan Freddy Narváez Prieto, magíster en Telecomunicaciones de la Universidad Nacional de Colombia (U.N.), integró herramientas computacionales con el fin de desarrollar la plataforma para la distribución y el procesamiento de datos biológicos.
Es difícil extraer los datos porque para ello se requiere un análisis biológico, que es la secuenciación, y además cuando se consiguen son muy grandes, si se tiene en cuenta que es necesario comparar muchos elementos para tener resultados, explica el investigador, quien se propuso resolver estas dificultades con el diseño de la herramienta.
Debido al aumento exponencial de la cantidad de datos que se obtienen con la aplicación de técnicas moleculares de alto rendimiento cada vez se requieren más herramientas bioinformáticas con un factor de procesamiento y un poder de cómputo muy altos, para obtener resultados rápidamente, a lo cual busca contribuir el investigador Narváez.

Solución para diferentes campos

La plataforma emplea una arquitectura Master Distribution Task (MDT), que busca establecer una forma de controlar los procesos ejecutados por un flujo de procesamiento computacional (workflow), que correspondería a las tareas que especialistas como los biólogos quieren que la herramienta ejecute para analizar los datos.
La idea es que los especialistas tengan claras esas tareas y las programen para que automáticamente el software empiece a ejecutarlas, señala el magíster.
Esto lo consigue con recursos de cómputo heterogéneos, es decir máquinas con elementos como procesadores y memorias RAM diferentes, que se pudieron acoplar sin que se afectara la velocidad de procesamiento de los datos.

La prueba de esta solución, que se puede emplear para diferentes campos de investigación, mostró que con la plataforma fue posible abordar una estrategia distribuida para obtener un mejor rendimiento y menos tiempo de ejecución a la hora de realizar este tipo de análisis sobre datos biológicos.

Se observó que cada uno de los nodos a nivel de procesamiento aprovechaba un porcentaje importante de la disponibilidad del procesador.

Por otra parte, se advirtió que las aplicaciones que no logran actuar de manera paralela afectan en gran medida el rendimiento, mientras que otras no logran hacer un uso eficiente del almacenamiento, generando grandes bloques de información sobre el sistema de archivos que causan algunos problemas.

Dichas fallas y el diseño de una interfaz que le permita a cualquier usuario utilizar la plataforma sin necesidad de tener conocimiento avanzado en manejo de línea de comando, deberán resolverse para llevar finalmente el software a una aplicación en el contexto real. Es lo que espera conseguir el investigador como parte de un proyecto que adelanta desde la Maestría en Bioinformática que cursa en la actualidad.


No hay comentarios.:

Con tecnología de Blogger.