Menu

APLICACIONES DE LA BIOINFORMÁTICA EN LA MEDICINA: EL GENOMA HUMANO. ¿CÓMO PODEMOS VER TANTO DETALLE?

A continuación se expone una identificación del esfuerzo del trabajo interdisciplinario liderado por la bioinformática, de los principales desarrollos de programas de cómputo que permitieron llevar a cabo el secuenciamiento del primer genoma humano y de su uso para resolver los problemas derivados de los métodos de secuenciamiento de nueva generación, que como resultado produjeron el secuenciamiento del segundo genoma humano y el secuenciamento de 1000 genomas humanos. Por último se introducen los retos de la era de la genómica personalizada y su posible unión con la medicina.


INTRODUCCIÓN

Uno de los principales retos de la medicina reconocido por muchos investigadores desde el  secuenciamiento del genoma humano, ha sido identificar a escala genómica la variación génica que puede estar asociada con algunas enfermedades humanas. Líderes mundiales han trabajado en el desarrollo de metodologías experimentales, modelos matemáticos y computacionales para continuar estudiando e identificando las variaciones que pueden detectarse a partir del análisis genómico. Investigadores y líderes del estudio de la genómica, entre ellos, Michael Snyder (Director del Centro de Genómica y Medicina Personalizada de la Universidad de Stanford) nos señala “que la genética y la genómica están experimentando una revolución extraordinaria y nuestra misión es continuar liderando esta revolución para una mejor comprensión de la biología y la salud humana” (Chen y Snyder, 2014).
En el artículo se presenta una reflexión e identificación del esfuerzo del trabajo interdisciplinario liderado por la bioinformática, de los principales desarrollos de programas de cómputo que permitieron llevar a cabo el secuenciamiento del primer genoma humano y de su uso para resolver los problemas derivados de los métodos de secuenciamiento de nueva generación, que como resultado produjeron el secuenciamiento del segundo genoma humano y el secuenciamento de 1000 genomas humanos. Por último se introducen los retos de la era de la genómica  personalizada y su posible unión con la medicina.

PRELUDIO BIOINFORMÁTICO

Sin lugar a dudas, los logros de la genética molecular y la biología celular en el pasado han sido acompañados de los avances computacionales necesarios para el procesamiento de la información genética. En palabras de Ouzounis y Valencia (2003) este primer acercamiento a la influencia de la bioinformática sobre la biología molecular, no solo recuerda el continuo avance en la vida moderna gracias al desarrollo de la informática, sino el de su influencia para convertirla en uno de los campos altamente visibles de la ciencia moderna.
En los orígenes de la bioinformática muchos de sus pioneros desarrollaron los principios  fundamentales para construir el complejo marco conceptual requerido, desde el punto de vista computacional, para responder a preguntas relacionadas con la variación en las secuencias de los genes, de las proteínas y de los genomas. Estos primeros trabajos no se escaparon de la tarea convencional que se hace en la bioinformática que es en principio trasladar problemas biológicos a problemas computacionales.
Aunque la complejidad de los problemas biológicos no siempre puede ser resuelta  computacionalmente, debido a la carencia de algoritmos o modelos matemáticos o por limitantes de equipos de cómputo de alto poder que puedan calcular operaciones para resolverlos, si podemos reconocer en los pioneros de la bioinformática el valor de haber soñado con lo imposible en su época, ya que no se conocía la secuencia del genoma de ningún organismo, y sin embargo hicieron parte de la construcción del andamiaje teórico que le permite hoy en día a miles de investigadores en el mundo realizar el análisis genómico.
Por ejemplo, al inicio de los años 90 ya se habían diseñado e implementado algoritmos para el análisis comparativo de secuencias de proteínas y de genes o para la búsqueda de patrones o repeticiones (Ouzounis y Valencia, 2003), esto cuando aún no se había secuenciado el genoma de un organismo vivo, sólo se habían secuenciado los genomas de los virus ΦX174 (Sanger et al., 1977) y del herpes Epstein-Bar (Baer et al., 1984). Años después, en 1995 se publicaron los primeros genomas bacterianos para las especies Haemophilus influenzae (Fleischmann et al., 1995) y Mycoplasma genitalium (Fraser et al., 1995).

En estos primeros años se construyó la teoría para la comparación de secuencias de proteínas basada en los trabajos de construcción de las matrices de sustitución y de matrices PAM liderados por Dayhoff (Dayhoff et al., 1978), que posteriormente fue adaptada para el estudio de secuencias de DNA y conceptualmente modificada para el análisis de secuencias más largas. Este primer gran
avance es conocido en el lenguaje de la bioinformática como el alineamiento de cadenas y de secuencias utilizado para comparar dos o más secuencias de ADN o ARN o de proteínas y cuantificar su grado de similitud.
Los modelos de alineamiento global para pares de cadenas fueron desarrollados por Needleman y Wunsch (1970), incluyendo restricciones por inserciones o deleciones por Sankoff (1972) y el uso de matrices de mutación por Dayhoff et al. (1978) que fueron extendidos para alineamiento locales por Smith y Waterman (1981a;1981b). Posteriormente, Feng y Doolittle (1987) diseñaron los algoritmos que permiten el análisis comparativo múltiple de más de dos cadenas. Por otro lado, se diseñó la familia de algoritmos que basan su búsqueda en bases de datos como FASTA (Wilbur y Lipman, 1983; Lipman y Pearson, 1985), y los basados en perfiles de secuencias por Gribskov et al. (1987).
De forma paralela al desarrollo e implementación de algoritmos para el análisis de secuencias, no se puede dejar a un lado la importancia de buscar la manera eficiente de almacenar la información para poder consultarla eficientemente. Ouzounis y Valencia (2003) indican que la creación de las dos primeras fuentes para el almacenamiento de datos de secuencias de genes y proteínas se realizó antes de los 90, conocidas actualmente como el GenBank (Bilofsky et al., 1986) y el EMBL Data Library (Hamm y Cameron, 1986).
Posteriormente en el año 2002, se creó el DDBJ (Banco de Datos del Japón). Además, en estos años se dieron las primeras iniciativas para la construcción de redes de comunidades de la bioinformática, que permitieron, canalizar y difundir los desarrollos en el campo, para permitir una comunicación a nivel mundial entre los investigadores  como lo fueron BIONET (Smith et al., 1986; Kristofferson, 1987) y EMBNET (Lesk, 1988).

EL GENOMA HUMANO: INICIOS DE SU CÓMPUTO

El termino bioinformática en sus inicios no era parte del lenguaje utilizado por los biólogos, sino un término común utilizado por matemáticos y científicos de la computación interesados en el tema, situación contrastante con el uso actual de esta disciplina altamente difundida en la biología.
Pese a esto, es importante resaltar que a finales de los años 80 ya existían muchos laboratorios de biología molecular que habían iniciado los análisis de comparación de secuencias en micro-computadores en donde podían controlar de forma personal el flujo de análisis (Cannon, 1990). Por esa misma época se incrementó el volumen de datos producto de los resultados experimentales de los trabajos de los biólogos moleculares y se empezó a discutir sobre las necesidades de incremento de capacidad de computo para analizarlos dando inicio a una gran etapa que consistió en evaluar la necesidad de capacidades computacionales para el almacenamiento y procesamiento de información requeridos para el futuro desarrollo del proyecto genoma humano (Kelly, 1989). Entre 1988 y 1989 se había fundado el Centro HUGO (The Human Genome Organisation) por parte del Departamento de Energía (DOE) (quienes tuvieron la iniciativa del proyecto en 1986) y el Instituto Nacional de Salud de los Estados Unidos. Posteriormente en 1993, HUGO se transformó en el Instituto Nacional de Investigaciones del Genoma Humano: NHGRI (National Human Genome Research Institute), NHGRI, 2016. A finales de 1998 se publicó el primer repositorio de acceso público sobre el genoma humano en el Genome Database (GDB) (Letovsky et al., 1998), el cual posteriormente trasladó parte de su información al GenBank (Benson et al., 2013) el cual es actualmente manejado por el “National Center for
Biotechnology Information” (NCBI).
También surgió la iniciativa de publicar los avances del proyecto del genoma humano y se creó la primera serie en 1989 de las hojas informativas oficiales del DOE tituladas:  “Human Genome quarterly” posteriormente conocida como Human genome news, que hasta el año 2002 publicó las principales noticias asociadas a los avances del proyecto genoma humano. En su primera entrega (Human Genome Quartely, 1989) se publicaron entre otros datos, los objetivos del grupo de trabajo computacional del genoma humano resumidos así:

1. Asesorar sobre los términos técnicos, necesidades, costos y requisitos computacionales.
2. Dar respuesta focalizada para responder a necesidades computacionales requeridas para acompañar los esfuerzos experimentales.
3. Mantener un foro para la discusión detallada sobre los avances e investigación requerida dentro de la comunidad del DOE.
4. Desarrollar protocolos para compartir datos en redes, y
5. Ofrecer un puente de comunicación oficial entre el sector privado y el DOE para negociar permisos y acuerdos de uso comercial derivados del proyecto genoma humano.

Adicionalmente se presentó el resumen general del primer gran taller realizado a finales de 1988 en Santa Fé, Nuevo México, cuyo objetivo fue reforzar la importancia de construir una interface entre ciencia computacional y metodologías de secuenciamiento de ácidos nucleicos.
En dicho taller no sólo se identificaron las necesidades de programas de cómputo robustos, también se enfatizó en la necesidad no sólo de construir y extender la base teórica computacional para identificar la funcionalidad de las secuencias de ADN sino en la de desarrollar dispositivos de computo especializados para el análisis de secuencias (Human Genome Quarterly, 1989).
En palabras de DeLissi (2008) se podría resumir que en este taller, sin opacar por su puesto la importancia del taller de Santa Cruz en 1985 (Sinsheimer, 1985), se formalizó la delicada urgencia de evaluar si costos, complejidad técnica experimental y necesidades de métodos computacionales, podían en forma sincrónica e industrializada trabajar en conjunto para balancear la producción de información procesada y la producción masiva producto del  secuenciamiento.
Entonces, en los inicios de los años 90 se da inicio al auge en la publicación de paquetes  informáticos diseñados para incrementar la velocidad de cómputo para la comparación de secuencias de proteínas y de ADN (ya que los algoritmos diseñados por Needleman y Wunsch (1970) y Smith y Waterman (1981a; 1981b) tenían limitaciones de tiempo de ejecución) y aunque previamente existían heurísticas para la comparación de secuencias conocidas como la familia de algoritmos FASTA (Wilbur y Lipman, 1983; Lipman y Pearson, 1985), la técnica sofisticada de filtrado llamada BLAST por su sigla en inglés de Basic Local Alignment Search Tool (Altschul et al., 1990), fue elegida para el portal del NCBI por su velocidad y mejor tratamiento estadístico y quizás hoy en día es uno los paquetes de computo ampliamente utilizados para búsqueda de similitud entre secuencias. BLAST sigue siendo actualmente una de las herramientas ampliamente difundida y usada como primera estrategia para identificar homología entre secuencias. Adicionalmente en estos años los primeros recursos sofisticados para la predicción de genes fueron publicados (Ouzounis y Valencia, 2003) por Brunak et al., (1990); Mural y Uberbacher, (1991); States y
Botstein (1991); Fickett y Tung, (1992) y Guigo et al., (1992).
Sin embargo, adicional al problema de comparar y anotar los genes abordado por los pioneros de la bioinformática, es decir la construcción del andamiaje teórico requerido para resolver el problema de asignar sentido a la información secuenciada, un nuevo reto computacional surgió como requisito para poder ensamblar en cadenas largas de ADN, las piezas o lecturas (productos resultantes de las técnicas de secuenciamiento). Hasta el día de hoy las técnicas de  secuenciamiento de genomas utilizan métodos que secuencian el ADN no de forma directa sino a partir de pedazos obtenidos de su fragmentación al azar. No es posible con las plataformas disponibles en el mercado lograr en un único paso o reacción directamente una única lectura que corresponda a la cadena completa de un genoma. El reto computacional que se derivó entonces, fue resolver computacionalmente cómo los fragmentos deberían ser ensamblados o fusionados de forma correcta y consecutiva.
De forma muy general se podría entender hoy en día el proceso de ensamblaje de genomas como un proceso de concatenación de lecturas sobrelapadas de sus extremos iniciales y finales. Henson et al. (2012) exponen la idea que es importante buscar las coincidencias de los extremos de las lecturas como máxima para garantizar que los fragmentos ensamblados no sean producto de posibles coincidencias dadas por el azar. Sin embargo, se enfatiza en que los fragmentos ensamblados deben tener sentido en la región del genoma original. Los mismos autores entonces nos conducen a la consideración que si las lecturas concatenadas corresponden a regiones adyacentes en el genoma original entonces, este procedimiento se puede considerar como verdadero, pero si por el contrario si existen dos o más regiones en el genoma donde existiesen sitios potenciales de ubicar las lecturas, no siempre este proceso de concatenación concordaría con las regiones genómicas originales debido a la dificultad que plantearía la ubicación correcta de regiones duplicadas y en caso mas extremo al ensamblaje de regiones repetitivas (Henson et al., 2012).
El problema planteado anteriormente está vinculado con la complejidad misma de los genomas y el proceso de su dinámica evolutiva. Se puede pensar que ensamblar correctamente el genoma de una especie depende de su complejidad, la cual es el producto derivado del transcurso del tiempo y que conlleva a una estructura genómica compleja. Estas características se pueden observar cuando se analizan genomas actuales y se encuentran duplicaciones de fragmentos, rearreglos de regiones, entre otras características de alta complejidad. Entonces, la siguiente consideración de Henson et al., (2012) nos confirma que el proceso del ensamblaje del genoma es mucho más complicado de lo que podemos suponer, por ejemplo, si en un borrador de un genoma se tuviese que la secuencia X está concatenada como A, X y B y en otra región del mismo genoma ésta está concatenada como C, X y D no se podría descartar por ejemplo que la concatenación A, X y D también existiera debido a que no siempre el sobrelapamiento de los extremos puede resolver el problema de ensamblar las regiones repetitivas. Es por esta razón que los autores sugieren que los ensambles de los genomas deberían finalizar en los extremos de las vecindades donde residen repeticiones y utilizar otras aproximaciones para resolver el ensamblaje de estas regiones complejas.
Los autores de los primeros ensambladores de genomas de gran complejidad como el del humano o el de la mosca de la fruta tuvieron que enfrentarse al problema de diseñar las estrategias de cómputo para manejar la posible complejidad genómica. Los ensambladores genómicos fueron diseñados para lograr atacar al máximo los conflictos originados por múltiples sobrelapamientos entre lecturas. Dentro de los primeros ensambladores se tenían aquellos utilizados para la construcción de mapas físicos por medio de la identificación de huellas derivadas de los  fragmentos de restricción en los clones para luego sobreponer aquellos con mayor similitud.
Una explicación matemática de las aproximaciones de la época puede consultarse en Lander y Waterman (1988) y su extensión para el ensamblaje de clones utilizando anclas en Arratia et al., (1991).

EL PRIMER BORRADOR DEL GENOMA HUMANO

Después de las iniciativas lideradas por el DOE y otros investigadores, desde 1984 hasta 1986 (Sinsheimer, 1985; Palca, 1986), finalmente fue publicado en simultáneo en el 2001 el primer borrador del genoma humano y el primer mapa físico del genoma humano por The International Human Genome Sequencing Consortium (2001), (IHGSC, 2001). El consorcio internacional estaba formado por 20 grupos de diferentes países entre ellos Estados Unidos, Inglaterra, Japón, Francia, Alemania y China.
Desde 1997, parte de la estrategia mencionada anteriormente para secuenciar genomas, (es decir fragmentar el genoma humano en pedazos más pequeños para su posterior clonación), ya se había publicado. Este método y su estrategia se conoce en inglés como “Human Whole-Genome Shotgun Sequencing” (Weber y Myers, 1997). En esta misma publicación los autores plantearon que se requería gran cantidad de poder de computo para realizar el análisis del secuenciamiento. Adicionalmente indicaron que un cluster de computo conformado por estaciones de trabajo que procesaran un millón de instrucciones por segundo, permitiría obtener el genoma ensamblado en 300 días, tiempo que podría disminuirse, si los algoritmos utilizados eran más rápidos y por su puesto si la capacidad de computo se mejoraba.
El genoma humano fue inicialmente ensamblado utilizando el algoritmo implementado en el programa GigAssembler diseñado por Kent y Haussler (2001) y el algoritmo diseñado para el ensamblaje de clones implementado por Lander y Waterman (1988) y Arratia et al. (1991). Sin  embargo, aunque se logró un primer borrador de ensamblaje usando estos métodos, los autores reconocieron las debilidades de ambos algoritmos para resolver problemas asociados al ensamblado de regiones genómicas de alta complejidad producto de duplicaciones y regiones repetitivas teloméricas y subteloméricas (IHGSC, 2001). Parte de los retos que se debían resolver posteriormente para completar en su totalidad la secuencia del genoma humano fue llenar los huecos o gaps que se formaron en el primer ensamble del genoma.
Un proceso adicional al problema del ensamblaje de un genoma es poder determinar la cobertura, es decir el número de veces que una base ha sido secuenciada y que tiene sentido o que puede considerarse como la base o nucleótido que corresponde realmente a esa posición en el genoma original. En este caso, los autores utilizaron la herramienta BLAST para determinar el grado de cobertura del genoma humano. Para ello compararon las lecturas originales usadas para ensamblar el genoma humano y las secuencias disponibles en el GenBank.
Adicionalmente los datos disponibles de cDNAs de la base RefSeq (Pruit y Maglott, 2001) fueron alineadas al borrador del genoma humano encontrando que el 88 % de las bases de los cDNAs podían ser alineadas al genoma con un porcentaje de identidad del 98 % (IHGSC, 2001).
De esta forma los autores reportaron que en este primer borrador el 88 % del genoma humano estaba representado, y que con la combinación de datos publicados de secuencias su estimativo incrementaba a un 94 %. Estos valores concordaron con los porcentajes para huecos o gaps en los cuales residiría la demás porción del genoma.
Otro de los objetivos de los gestores del proyecto era hacer visible la información obtenida del genoma humano a la humanidad. Una de las herramientas más interesantes diseñadas para visualizar con mucho detalle los genomas (aun disponibles hoy en día y de amplio uso en el campo de la bioinformática) son los navegadores genómicos conocidos en inglés como los Genome Browsers. En la misma publicación (IHGSC, 2001) los autores visualizaron la información del genoma humano en este tipo de plataformas que a la fecha han evolucionado a plataformas computacionales que usan sofisticados manejos de bases de datos de tipo relacional para la integración de la información genómica comparativa y evolutiva entre genomas de diferentes especies. Los dos grandes navegadores genómicos utilizados para observar con detalle el genoma humano fueron el UCSC Genome Browser y el EnsEMBL, en constante mantenimiento y curación por la Universidad de California Santa Cruz (Kent et al., 2002) y el Instituto de Bioinformática Europeo y el Centro Sanger (Hubbard et al., 2002) respectivamente.
Ahora bien, como se ha mencionado anteriormente, el problema de las repeticiones incrementaba la complejidad de ensamblar los genomas, entonces, se diseñó un programa que permite la predicción de elementos repetitivos como prueba en el ensamblaje llamado Repeatmasker (Smith et al., 1996), el cual se apoya en la base de datos de elementos repetitivos identificados experimentalmente principalmente y curada por el Genetic Information Research Institute (GIRI) (Jurka, 1998; Jurka, 2000; Jurka et al., 2005).
Además, se construyó el primer índice de genes utilizando los resultados de diferentes  aproximaciones de cómputo que alinearon datos de ESTs, mRNAs, cDNAs a secuencias del ADN genómico ensamblado, así como de alineamientos de secuencias previamente reportadas de proteínas. (Birney et al., 1996; Gelfand et al., 1996; Mott, 1997; Bailey et al., 1998; Florea et al., 1998). Por último, los autores utilizaron modelos ab initio para la predicción de genes basados en los modelos ocultos de Markov (HMM) implementados en programas como GenScan (Burge y  Karlin, 1997), Genie (Kulp et al., 1996; Reese et al., 2000) y Fgenes (Solovyev y Salamov, 1997). Generalmente estos programas utilizaron la información depositada de las bases de datos como EnsEMBL, RefSeq y PFAM, SWISSPROT y TrEMBL como parte del proceso para la construcción de información requerida.
En este primer borrador del genoma humano los autores propusieron construir un índice de genes y un índice de proteínas. El índice de genes construido indicó un total de 24500 genes para esta primera versión del genoma humano (IHGSC, 2001). Así mismo en esta misma época fue presentada la estrategia computacional utilizada para el ensamble del genoma de la mosca de la fruta y conocido como el ensamblador de Celera cuyo diseño algorítmico puede consultarse en Myers et al. (2000).

LAS NUEVAS TECNOLOGÍAS DE SECUENCIAMIENTO Y SU IMPACTO EN EL ESTUDIO DEL GENOMA HUMANO A GRAN ESCALA

El proyecto genoma humano ha sido comparado por algunos autores como un proyecto de tanto impacto y de retos para la humanidad como lo fue en su tiempo el proyecto de viajar a la luna. De acuerdo con el NHGRI, 2016 tras una inversión cercana a los 2.700 millones de dolares, los costos requeridos y la necesidad de infraestructura para amplificar a una escala mayor el  secuenciamiento de más genomas, conllevó a enfrentar a los investigadores a nuevos retos computacionales y experimentales y a la idea de llevar a cabo un desarrollo automatizado masivo que permitiera identificar variantes genómicas derivadas del análisis genómico con posibles aplicaciones en la medicina personalizada.
Sin embargo, los costos invertidos en el secuenciamiento del primer borrador del genoma humano, plantearon la necesidad de utilizar métodos de secuenciamiento mucho más económicos y eficientes. Esto condujo al desarrollo de lo que se conoce hoy en día como tecnologías de secuenciamiento de nueva generación. Para una revisión más detalla de su desarrollo en comparación con procedimientos computacionales y otras aplicaciones se puede consultar a Zhang et al. (2011) y Henson et al. (2012), y Bermudez-Santana (2011) respectivamente. Los nuevos métodos de secuenciamiento incrementaron la cobertura, basaron sus métodos de amplificación en otras estrategias sin usar amplificación por clones biológicos y disminuyeron dramáticamente los costos de secuenciamiento.
Pero por otro lado, los tamaños de las lecturas producto de este nuevo secuenciamiento disminuyeron en comparación con las obtenidas por los métodos de secuenciamiento de Sanger (1975) y Sanger et al. (1977), es decir de una longitud cercana a los 1000 pares de bases máximas obtenidas por el secuenciamiento de Sanger, se pasó a una longitud que variaba entre los 35 y 500 pares de bases dependiendo de la tecnología. Entonces ahora, los problemas de ensamblaje de lecturas se centraron en la búsqueda de sobrelapamiento de lecturas de menor tamaño y en la búsqueda de estrategias de almacenamiento y de procesamiento de información producto del alto volumen de datos de las nuevas metodologías de secuenciamiento que puede superar las gigas en cantidad de información para un experimento.
Dentro de las primeras tecnologías, la primera técnica de segunda generación introducida en el mercado en 2005 se conoció como 454 (Gilles et al., 2011) cuyo tamaño de lecturas era cercano a 600 pares de bases (actualmente esta tecnología se encuentra fuera de uso comercial). Con esta tecnología fue posible el secuenciamiento del segundo genoma humano perteneciente a James Watson (Wheeler et al., 2008 en Zhang et al., 2011). Posteriormente en el 2007 se lanzó al mercado Illumina con productos de tamaño de lecturas hoy en día cercano a los 100 pares de bases y cuya metodología fue utilizada para el resecuenciamiento del genoma humano en el 2008 (Bentley et al., 2008).
Otro método comercializado por Life Technologies (CA, USA), SOLiD de Life Technologies: Applied Biosystems ha sido también utilizado dentro de este marco de secuenciadores de segunda generación y por primera vez usado en el estudio del posicionamiento de nucleosomas (Valouev et al., 2008).
Para una revisión del tema de secuenciadores de segunda generación consulte a (Metzker, 2010).
Posteriormente surgieron los métodos de tercera  generación que se basan en el secuenciamiento directo de ADN o conocido como secuenciamiento en tiempo real de cadena única (en inglés single-molecule real-time (SMRT) sequencing) (Benjamin et al., 2010) comercializado por Pacific Biosciences–y los métodos comercializados por Life Technologies: Ion Torrent (Rusk, 2011). Estas tecnologías pueden producir un tamaño final de lecturas en promedio cercano a 14000 pares de bases y 200 pares de bases, respectivamente. Los métodos de cuarta generación en proceso de desarrollo y comercialización se basan en la tecnología del Nanoporo que promete tener aplicaciones en la medicina personalizada, por ejemplo en Mikheyev (2014) puede consultarse una de sus aplicaciones en otras áreas de la ciencia.
Aunque las nuevas tecnologías incrementaron la eficiencia y disminuyeron los costos, por ejemplo  del costo de secuenciamiento del primer genoma humano de 2.700 millones de dólares americanos se pasó a un costo cercano a los 5.000 dólares, los nuevos tamaños de lecturas no permitían continuar con las aproximaciones utilizadas de ensamblaje tradicionales. Henson et al. (2012) enfatizan que la extensión de concatenación de lecturas y el posible sobrelapamiento múltiple con más regiones se podría incrementar conllevando a una mayor cantidad de gaps en los genomas ensamblados. Problemas similares fueron resaltados por (Wold y Myers, 2008).

Para el caso particular de genoma humano, incluso extensible a genomas ya ensamblados, el proceso general reportado para el ensamblaje utilizando productos de secuenciamiento de última generación es en primer lugar el mapeo o alineamiento de lecturas al genoma humano de referencia (Zhang et al., 2011) o proceso conocido como mapeo para genomas re-sequenciados. Este tipo de pasos para ensamblar genomas utilizando genomas previamente secuenciados difiere en procedimiento de los pasos utilizados en el ensamblaje de novo, procedimiento que se fundamentó orginalmente en los principios de los grafos de Bruijn (Pevzner et al. 2011).
Para una mejor documentación sobre pasos a tener en cuenta en este tipo de ensamblaje se puede consultar a Baker (2012). A diferencia del ensamble de de novo, en el ensamble con genoma de referencia se debe mapear con alta confiabilidad las pequeñas lecturas al genoma de referencia, millones de lecturas cortas deben ser mapeadas al genoma de referencia que para el caso del humano, correspondería a las versiones secuenciadas del genoma humano.
Sin embargo para lograr con gran efectividad el mapeo, el genoma humano es comprimido en un conjunto de índices y se usan estructuras de datos conocidas como árboles de sufijos que facilitan no solo la compresión de cadenas de larga magnitud que corresponden a cada cromosoma sino el proceso de búsqueda eficiente de coincidencias de los millones de lecturas obtenidas de un  experimento de secuenciamiento de última generación en el genoma de referencia, una explicación matemática detallada puede consultarse en Grossi y Vitter (2005).
Dentro de las diferentes aplicaciones de mapeo más utilizadas se encuentran MAQ (Mapping and Assembly with Quality) desarrollada por Li et al. (2008, 2009), Bowtie por Langmead et al. (2009), Segemehl por Hoffman et al.  (2009) y SOAP por Li et al. (2008); entre otras aplicaciones disponibles que pueden ser consultadas en Zhang et al. (2011). Por otro lado, Magi et al. (2015) indican que una vez el proceso de mapeado finaliza, una de las estrategias siguientes es identificar el conjunto de lecturas que representan estadísticamente variaciones con relación al genoma de referencia. Con estas estrategias es posible identificar lo que se conoce como variantes de  nucleótido sencillas. Para ello se utilizan herramientas flexibles que almacenan de forma genérica los alineamientos resultantes de mapeo, estas herramientas pueden almacenar resultados de mapeo realizado por diferentes estrategias. Un ejemplo de éstas es SAM-Tools desarrollado por Li et al. (2009) que ha sido utilizada en el proyecto de secuenciamiento de los 1000 genomas humanos (The 1000 Genomes Project Consortium, 2010). Otra herramienta disponible es GATK desarrollada por McKenna et al. (2010). Para una revisión de métodos utilizados para la identificación de variantes se puede consultar a Medvedev et al. (2009) y Pirooznia et al. (2014).


FUTURO Y PERSPECTIVAS DE LA GENÓMICA PERSONALIZADA

Una de las preguntas derivadas del éxito del secuenciamiento del genoma humano podría  plantearse en relación con su posible uso para el diagnóstico de enfermedades, es decir, ¿Tendrá la genómica un impacto en la práctica médica y por consiguiente, también en la salud humana? Con los cambios en los precios del secuenciamiento del genoma humano, que han disminuido dramáticamente en los últimos años (se ha llegado a pronosticar un valor de 1000 dólares  americanos por genoma) la idea de poder vernos más en detalle no es tan lejana y cada vez está al alcance del soporte al diagnóstico médico. Pero a la vez, la posibilidad de conocer la secuencia del genoma de un paciente genera problemática desde el punto de vista ético y logístico,  especialmente cuando se desee integrar la información genómica y su posible uso para el desarrollo de un fármaco o cuando se requiera planificar un esquema de combinación de fármacos dirigido a pacientes interesados en enfoques de la medicina personalizada. Pero por otro lado, aun no se ha evaluado las implicaciones que en salud pública tengan los efectos de preexistencias detectadas por el análisis genómico para alcanzar una trabajo o una afiliación a los sistemas de salud.
Offit (2011) enfatiza que en el caso de la medicina personalizada por ejemplo, la genómica  personalizada construye los principios para la integración de la genética dentro de la práctica médica. Sin embargo, Offit (2011) también recuerda que mecanismos epigenéticos deberán ser incorporados al modelo genómico de estudio de la enfermedad humana, para lograr entender la enfermedad como un modelo genético multifactorial que involucra el ambiente asi como otros modificadores genéticos. Desde el punto de vista de la farmacología, la posible optimización de la terapia podría lograrse por el uso de información obtenida de los estudios genómicos, sin dejar atrás la importancia de evaluar la complejidad del actuar de muchos medicamentos.
Autores como Sadee y Dai (2005) mencionan que el éxito del descubrimiento de nuevos fármacos derivados de los estudios genómicos o de estudios farmacogenómicos deberían tener en cuenta los múltiples procesos que involucran la respuesta de los pacientes a fármacos y sus combinaciones, si es así, ahora la bioinformática tendrá nuevos retos para el manejo masivo de datos de las historias clínicas nutridas con la información genómica y requerirá el uso de la informática aplicada para conectar los posibles resultados obtenidos de estudios de polimorfismo de genes, del análisis cuantitativo de factores genéticos así como de la evaluación de los fenómenos epigenéticos. Todos estos en conjunto requerirán por supuesto estar conectados con las respuestas a nivel proteómico y metabolómico. Por tanto, el descubrimiento de nuevos fármacos asi como su posible uso comercial dependerá de la construcción de protocolos para la extrapolación de sus posibles beneficios asi como de La necesidad de construir un estructura jurídica que proteja la confidencialidad de los pacientes. Guttmacher et al. (2010) enfatizan que para utilizar de forma apropiada y efectiva la información genómica derivada de un individuo se debe poseer de una infraestructura científica, logística y ética. La pregunta actual es si estamos preparados o si estamos construyendo una infraestructura para ello. En este sentido seis reglas principales se deben seguir para construir una agenda en salud pública que involucre la genómica como apoyo al diagnóstico médico que pueden ser consultadas en Burke et al. (2012). Sin embargo debido a la complejidad bio-sico-social de muchas enfermedades, las políticas de salud pública se verán enfrentadas con retos de alta complejidad como lo indica McBride et al. (2008).
Aunque se mantienen igualmente muchos debates éticos alrededor del tema de la genómica personalizada y su posible impacto en la medicina personalizada muchos investigadores, entre ellos Harol Elliot Varmus (premio Nobel de medicina y fisiología en 1989), indican que la genómica es tan sólo un modo de hacer ciencia y no medicina. Entonces de sus palabras podríamos pensar que a los protocolos existentes en medicina tan sólo se les debe incorporar la información genómica como una información complementaría similar a los resultados de laboratorio convencionales. Al respecto el debate continuará en los próximos años.
FUENTE


No hay comentarios.:

Con tecnología de Blogger.