APLICACIONES DE LA BIOINFORMÁTICA EN LA MEDICINA: EL GENOMA HUMANO. ¿CÓMO PODEMOS VER TANTO DETALLE?
A
continuación se expone una identificación del esfuerzo del trabajo
interdisciplinario liderado por la bioinformática, de los principales desarrollos
de programas de cómputo que permitieron llevar a cabo el secuenciamiento del
primer genoma humano y de su uso para resolver los problemas derivados de los
métodos de secuenciamiento de nueva generación, que como resultado produjeron
el secuenciamiento del segundo genoma humano y el secuenciamento de 1000
genomas humanos. Por último se introducen los retos de la era de la genómica
personalizada y su posible unión con la medicina.
INTRODUCCIÓN
Uno
de los principales retos de la medicina reconocido por muchos investigadores
desde el secuenciamiento del genoma
humano, ha sido identificar a escala genómica la variación génica que puede
estar asociada con algunas enfermedades humanas. Líderes mundiales han
trabajado en el desarrollo de metodologías experimentales, modelos matemáticos
y computacionales para continuar estudiando e identificando las variaciones que
pueden detectarse a partir del análisis genómico. Investigadores y líderes del
estudio de la genómica, entre ellos, Michael Snyder (Director del Centro de
Genómica y Medicina Personalizada de la Universidad de Stanford) nos señala
“que la genética y la genómica están experimentando una revolución
extraordinaria y nuestra misión es continuar liderando esta revolución para una
mejor comprensión de la biología y la salud humana” (Chen y Snyder, 2014).
En
el artículo se presenta una reflexión e identificación del esfuerzo del trabajo
interdisciplinario liderado por la bioinformática, de los principales
desarrollos de programas de cómputo que permitieron llevar a cabo el
secuenciamiento del primer genoma humano y de su uso para resolver los
problemas derivados de los métodos de secuenciamiento de nueva generación, que
como resultado produjeron el secuenciamiento del segundo genoma humano y el secuenciamento
de 1000 genomas humanos. Por último se introducen los retos de la era de la
genómica personalizada y su posible unión
con la medicina.
PRELUDIO
BIOINFORMÁTICO
Sin
lugar a dudas, los logros de la genética molecular y la biología celular en el
pasado han sido acompañados de los avances computacionales necesarios para el
procesamiento de la información genética. En palabras de Ouzounis y Valencia
(2003) este primer acercamiento a la influencia de la bioinformática sobre la
biología molecular, no solo recuerda el continuo avance en la vida moderna
gracias al desarrollo de la informática, sino el de su influencia para convertirla
en uno de los campos altamente visibles de la ciencia moderna.
En
los orígenes de la bioinformática muchos de sus pioneros desarrollaron los
principios fundamentales para construir
el complejo marco conceptual requerido, desde el punto de vista computacional,
para responder a preguntas relacionadas con la variación en las secuencias de
los genes, de las proteínas y de los genomas. Estos primeros trabajos no se
escaparon de la tarea convencional que se hace en la bioinformática que es en
principio trasladar problemas biológicos a problemas computacionales.
Aunque
la complejidad de los problemas biológicos no siempre puede ser resuelta computacionalmente, debido a la carencia de
algoritmos o modelos matemáticos o por limitantes de equipos de cómputo de alto
poder que puedan calcular operaciones para resolverlos, si podemos reconocer en
los pioneros de la bioinformática el valor de haber soñado con lo imposible en
su época, ya que no se conocía la secuencia del genoma de ningún organismo, y
sin embargo hicieron parte de la construcción del andamiaje teórico que le
permite hoy en día a miles de investigadores en el mundo realizar el análisis
genómico.
Por
ejemplo, al inicio de los años 90 ya se habían diseñado e implementado
algoritmos para el análisis comparativo de secuencias de proteínas y de genes o
para la búsqueda de patrones o repeticiones (Ouzounis y Valencia, 2003), esto
cuando aún no se había secuenciado el genoma de un organismo vivo, sólo se
habían secuenciado los genomas de los virus ΦX174 (Sanger et al., 1977) y del
herpes Epstein-Bar (Baer et al., 1984). Años después, en 1995 se publicaron los
primeros genomas bacterianos para las especies Haemophilus influenzae
(Fleischmann et al., 1995) y Mycoplasma genitalium (Fraser et al., 1995).
En
estos primeros años se construyó la teoría para la comparación de secuencias de
proteínas basada en los trabajos de construcción de las matrices de sustitución
y de matrices PAM liderados por Dayhoff (Dayhoff et al., 1978), que
posteriormente fue adaptada para el estudio de secuencias de DNA y
conceptualmente modificada para el análisis de secuencias más largas. Este
primer gran
avance
es conocido en el lenguaje de la bioinformática como el alineamiento de cadenas
y de secuencias utilizado para comparar dos o más secuencias de ADN o ARN o de proteínas
y cuantificar su grado de similitud.
Los
modelos de alineamiento global para pares de cadenas fueron desarrollados por
Needleman y Wunsch (1970), incluyendo restricciones por inserciones o
deleciones por Sankoff (1972) y el uso de matrices de mutación por Dayhoff et
al. (1978) que fueron extendidos para alineamiento locales por Smith y Waterman
(1981a;1981b). Posteriormente, Feng y Doolittle (1987) diseñaron los algoritmos
que permiten el análisis comparativo múltiple de más de dos cadenas. Por otro
lado, se diseñó la familia de algoritmos que basan su búsqueda en bases de
datos como FASTA (Wilbur y Lipman, 1983; Lipman y Pearson, 1985), y los basados
en perfiles de secuencias por Gribskov et al. (1987).
De
forma paralela al desarrollo e implementación de algoritmos para el análisis de
secuencias, no se puede dejar a un lado la importancia de buscar la manera
eficiente de almacenar la información para poder consultarla eficientemente.
Ouzounis y Valencia (2003) indican que la creación de las dos primeras fuentes
para el almacenamiento de datos de secuencias de genes y proteínas se realizó
antes de los 90, conocidas actualmente como el GenBank (Bilofsky et al., 1986)
y el EMBL Data Library (Hamm y Cameron, 1986).
Posteriormente
en el año 2002, se creó el DDBJ (Banco de Datos del Japón). Además, en estos
años se dieron las primeras iniciativas para la construcción de redes de
comunidades de la bioinformática, que permitieron, canalizar y difundir los
desarrollos en el campo, para permitir una comunicación a nivel mundial entre
los investigadores como lo fueron BIONET
(Smith et al., 1986; Kristofferson, 1987) y EMBNET (Lesk, 1988).
EL
GENOMA HUMANO: INICIOS DE SU CÓMPUTO
El
termino bioinformática en sus inicios no era parte del lenguaje utilizado por
los biólogos, sino un término común utilizado por matemáticos y científicos de
la computación interesados en el tema, situación contrastante con el uso actual
de esta disciplina altamente difundida en la biología.
Pese
a esto, es importante resaltar que a finales de los años 80 ya existían muchos
laboratorios de biología molecular que habían iniciado los análisis de
comparación de secuencias en micro-computadores en donde podían controlar de forma
personal el flujo de análisis (Cannon, 1990). Por esa misma época se incrementó
el volumen de datos producto de los resultados experimentales de los trabajos de
los biólogos moleculares y se empezó a discutir sobre las necesidades de
incremento de capacidad de computo para analizarlos dando inicio a una gran
etapa que consistió en evaluar la necesidad de capacidades computacionales para
el almacenamiento y procesamiento de información requeridos para el futuro
desarrollo del proyecto genoma humano (Kelly, 1989). Entre 1988 y 1989 se había
fundado el Centro HUGO (The Human Genome Organisation) por parte del
Departamento de Energía (DOE) (quienes tuvieron la iniciativa del proyecto en
1986) y el Instituto Nacional de Salud de los Estados Unidos. Posteriormente en
1993, HUGO se transformó en el Instituto Nacional de Investigaciones del Genoma
Humano: NHGRI (National Human Genome Research Institute), NHGRI, 2016. A
finales de 1998 se publicó el primer repositorio de acceso público sobre el
genoma humano en el Genome Database (GDB) (Letovsky et al., 1998), el cual
posteriormente trasladó parte de su información al GenBank (Benson et al.,
2013) el cual es actualmente manejado por el “National Center for
Biotechnology
Information” (NCBI).
También
surgió la iniciativa de publicar los avances del proyecto del genoma humano y
se creó la primera serie en 1989 de las hojas informativas oficiales del DOE
tituladas: “Human Genome quarterly”
posteriormente conocida como Human genome news, que hasta el año 2002 publicó
las principales noticias asociadas a los avances del proyecto genoma humano. En
su primera entrega (Human Genome Quartely, 1989) se publicaron entre otros
datos, los objetivos del grupo de trabajo computacional del genoma humano
resumidos así:
1.
Asesorar sobre los términos técnicos, necesidades, costos y requisitos
computacionales.
2.
Dar respuesta focalizada para responder a necesidades computacionales
requeridas para acompañar los esfuerzos experimentales.
3.
Mantener un foro para la discusión detallada sobre los avances e investigación
requerida dentro de la comunidad del DOE.
4.
Desarrollar protocolos para compartir datos en redes, y
5.
Ofrecer un puente de comunicación oficial entre el sector privado y el DOE para
negociar permisos y acuerdos de uso comercial derivados del proyecto genoma
humano.
Adicionalmente
se presentó el resumen general del primer gran taller realizado a finales de
1988 en Santa Fé, Nuevo México, cuyo objetivo fue reforzar la importancia de
construir una interface entre ciencia computacional y metodologías de
secuenciamiento de ácidos nucleicos.
En
dicho taller no sólo se identificaron las necesidades de programas de cómputo
robustos, también se enfatizó en la necesidad no sólo de construir y extender
la base teórica computacional para identificar la funcionalidad de las secuencias
de ADN sino en la de desarrollar dispositivos de computo especializados para el
análisis de secuencias (Human Genome Quarterly, 1989).
En
palabras de DeLissi (2008) se podría resumir que en este taller, sin opacar por
su puesto la importancia del taller de Santa Cruz en 1985 (Sinsheimer, 1985),
se formalizó la delicada urgencia de evaluar si costos, complejidad técnica
experimental y necesidades de métodos computacionales, podían en forma sincrónica
e industrializada trabajar en conjunto para balancear la producción de
información procesada y la producción masiva producto del secuenciamiento.
Entonces,
en los inicios de los años 90 se da inicio al auge en la publicación de
paquetes informáticos diseñados para incrementar
la velocidad de cómputo para la comparación de secuencias de proteínas y de ADN
(ya que los algoritmos diseñados por Needleman y Wunsch (1970) y Smith y Waterman
(1981a; 1981b) tenían limitaciones de tiempo de ejecución) y aunque previamente
existían heurísticas para la comparación de secuencias conocidas como la
familia de algoritmos FASTA (Wilbur y Lipman, 1983; Lipman y Pearson, 1985), la
técnica sofisticada de filtrado llamada BLAST por su sigla en inglés de Basic
Local Alignment Search Tool (Altschul et al., 1990), fue elegida para el portal
del NCBI por su velocidad y mejor tratamiento estadístico y quizás hoy en día
es uno los paquetes de computo ampliamente utilizados para búsqueda de
similitud entre secuencias. BLAST sigue siendo actualmente una de las herramientas
ampliamente difundida y usada como primera estrategia para identificar homología
entre secuencias. Adicionalmente en estos años los primeros recursos
sofisticados para la predicción de genes fueron publicados (Ouzounis y
Valencia, 2003) por Brunak et al., (1990); Mural y Uberbacher, (1991); States y
Botstein
(1991); Fickett y Tung, (1992) y Guigo et al., (1992).
Sin
embargo, adicional al problema de comparar y anotar los genes abordado por los
pioneros de la bioinformática, es decir la construcción del andamiaje teórico
requerido para resolver el problema de asignar sentido a la información secuenciada,
un nuevo reto computacional surgió como requisito para poder ensamblar en
cadenas largas de ADN, las piezas o lecturas (productos resultantes de las técnicas
de secuenciamiento). Hasta el día de hoy las técnicas de secuenciamiento de genomas utilizan métodos que
secuencian el ADN no de forma directa sino a partir de pedazos obtenidos de su
fragmentación al azar. No es posible con las plataformas disponibles en el
mercado lograr en un único paso o reacción directamente una única lectura que
corresponda a la cadena completa de un genoma. El reto computacional que se
derivó entonces, fue resolver computacionalmente cómo los fragmentos deberían
ser ensamblados o fusionados de forma correcta y consecutiva.
De
forma muy general se podría entender hoy en día el proceso de ensamblaje de
genomas como un proceso de concatenación de lecturas sobrelapadas de sus
extremos iniciales y finales. Henson et al. (2012) exponen la idea que es
importante buscar las coincidencias de los extremos de las lecturas como máxima
para garantizar que los fragmentos ensamblados no sean producto de posibles coincidencias
dadas por el azar. Sin embargo, se enfatiza en que los fragmentos ensamblados
deben tener sentido en la región del genoma original. Los mismos autores entonces
nos conducen a la consideración que si las lecturas concatenadas corresponden a
regiones adyacentes en el genoma original entonces, este procedimiento se puede
considerar como verdadero, pero si por el contrario si existen dos o más
regiones en el genoma donde existiesen sitios potenciales de ubicar las
lecturas, no siempre este proceso de concatenación concordaría con las regiones
genómicas originales debido a la dificultad que plantearía la ubicación correcta
de regiones duplicadas y en caso mas extremo al ensamblaje de regiones
repetitivas (Henson et al., 2012).
El
problema planteado anteriormente está vinculado con la complejidad misma de los
genomas y el proceso de su dinámica evolutiva. Se puede pensar que ensamblar correctamente
el genoma de una especie depende de su complejidad, la cual es el producto
derivado del transcurso del tiempo y que conlleva a una estructura genómica compleja.
Estas características se pueden observar cuando se analizan genomas actuales y
se encuentran duplicaciones de fragmentos, rearreglos de regiones, entre otras
características de alta complejidad. Entonces, la siguiente consideración de
Henson et al., (2012) nos confirma que el proceso del ensamblaje del genoma es mucho
más complicado de lo que podemos suponer, por ejemplo, si en un borrador de un
genoma se tuviese que la secuencia X está concatenada como A, X y B y en otra
región del mismo genoma ésta está concatenada como C, X y D no se podría
descartar por ejemplo que la concatenación A, X y D también existiera debido a
que no siempre el sobrelapamiento de los extremos puede resolver el problema de
ensamblar las regiones repetitivas. Es por esta razón que los autores sugieren
que los ensambles de los genomas deberían finalizar en los extremos de las
vecindades donde residen repeticiones y utilizar otras aproximaciones para resolver
el ensamblaje de estas regiones complejas.
Los
autores de los primeros ensambladores de genomas de gran complejidad como el
del humano o el de la mosca de la fruta tuvieron que enfrentarse al problema de
diseñar las estrategias de cómputo para manejar la posible complejidad genómica.
Los ensambladores genómicos fueron diseñados para lograr atacar al máximo los
conflictos originados por múltiples sobrelapamientos entre lecturas. Dentro de
los primeros ensambladores se tenían aquellos utilizados para la construcción
de mapas físicos por medio de la identificación de huellas derivadas de los fragmentos de restricción en los clones para
luego sobreponer aquellos con mayor similitud.
Una
explicación matemática de las aproximaciones de la época puede consultarse en
Lander y Waterman (1988) y su extensión para el ensamblaje de clones utilizando
anclas en Arratia et al., (1991).
EL
PRIMER BORRADOR DEL GENOMA HUMANO
Después
de las iniciativas lideradas por el DOE y otros investigadores, desde 1984
hasta 1986 (Sinsheimer, 1985; Palca, 1986), finalmente fue publicado en
simultáneo en el 2001 el primer borrador del genoma humano y el primer mapa
físico del genoma humano por The International Human Genome Sequencing
Consortium (2001), (IHGSC, 2001). El consorcio internacional estaba formado por
20 grupos de diferentes países entre ellos Estados Unidos, Inglaterra, Japón,
Francia, Alemania y China.
Desde
1997, parte de la estrategia mencionada anteriormente para secuenciar genomas,
(es decir fragmentar el genoma humano en pedazos más pequeños para su posterior
clonación), ya se había publicado. Este método y su estrategia se conoce en
inglés como “Human Whole-Genome Shotgun Sequencing” (Weber y Myers, 1997). En
esta misma publicación los autores plantearon que se requería gran cantidad de
poder de computo para realizar el análisis del secuenciamiento. Adicionalmente
indicaron que un cluster de computo conformado por estaciones de trabajo que
procesaran un millón de instrucciones por segundo, permitiría obtener el genoma
ensamblado en 300 días, tiempo que podría disminuirse, si los algoritmos utilizados
eran más rápidos y por su puesto si la capacidad de computo se mejoraba.
El
genoma humano fue inicialmente ensamblado utilizando el algoritmo implementado
en el programa GigAssembler diseñado por Kent y Haussler (2001) y el algoritmo
diseñado para el ensamblaje de clones implementado por Lander y Waterman (1988)
y Arratia et al. (1991). Sin embargo, aunque
se logró un primer borrador de ensamblaje usando estos métodos, los autores
reconocieron las debilidades de ambos algoritmos para resolver problemas
asociados al ensamblado de regiones genómicas de alta complejidad producto de
duplicaciones y regiones repetitivas teloméricas y subteloméricas (IHGSC,
2001). Parte de los retos que se debían resolver posteriormente para completar
en su totalidad la secuencia del genoma humano fue llenar los huecos o gaps que
se formaron en el primer ensamble del genoma.
Un
proceso adicional al problema del ensamblaje de un genoma es poder determinar
la cobertura, es decir el número de veces que una base ha sido secuenciada y
que tiene sentido o que puede considerarse como la base o nucleótido que
corresponde realmente a esa posición en el genoma original. En este caso, los
autores utilizaron la herramienta BLAST para determinar el grado de cobertura del
genoma humano. Para ello compararon las lecturas originales usadas para
ensamblar el genoma humano y las secuencias disponibles en el GenBank.
Adicionalmente
los datos disponibles de cDNAs de la base RefSeq (Pruit y Maglott, 2001) fueron
alineadas al borrador del genoma humano encontrando que el 88 % de las bases de
los cDNAs podían ser alineadas al genoma con un porcentaje de identidad del 98
% (IHGSC, 2001).
De
esta forma los autores reportaron que en este primer borrador el 88 % del
genoma humano estaba representado, y que con la combinación de datos publicados
de secuencias su estimativo incrementaba a un 94 %. Estos valores concordaron
con los porcentajes para huecos o gaps en los cuales residiría la demás porción
del genoma.
Otro
de los objetivos de los gestores del proyecto era hacer visible la información
obtenida del genoma humano a la humanidad. Una de las herramientas más
interesantes diseñadas para visualizar con mucho detalle los genomas (aun
disponibles hoy en día y de amplio uso en el campo de la bioinformática) son
los navegadores genómicos conocidos en inglés como los Genome Browsers. En la
misma publicación (IHGSC, 2001) los autores visualizaron la información del genoma
humano en este tipo de plataformas que a la fecha han evolucionado a
plataformas computacionales que usan sofisticados manejos de bases de datos de
tipo relacional para la integración de la información genómica comparativa y
evolutiva entre genomas de diferentes especies. Los dos grandes navegadores
genómicos utilizados para observar con detalle el genoma humano fueron el UCSC
Genome Browser y el EnsEMBL, en constante mantenimiento y curación por la
Universidad de California Santa Cruz (Kent et al., 2002) y el Instituto de
Bioinformática Europeo y el Centro Sanger (Hubbard et al., 2002)
respectivamente.
Ahora
bien, como se ha mencionado anteriormente, el problema de las repeticiones
incrementaba la complejidad de ensamblar los genomas, entonces, se diseñó un
programa que permite la predicción de elementos repetitivos como prueba en el
ensamblaje llamado Repeatmasker (Smith et al., 1996), el cual se apoya en la
base de datos de elementos repetitivos identificados experimentalmente
principalmente y curada por el Genetic Information Research Institute (GIRI) (Jurka,
1998; Jurka, 2000; Jurka et al., 2005).
Además,
se construyó el primer índice de genes utilizando los resultados de diferentes aproximaciones de cómputo que alinearon datos
de ESTs, mRNAs, cDNAs a secuencias del ADN genómico ensamblado, así como de
alineamientos de secuencias previamente reportadas de proteínas. (Birney et
al., 1996; Gelfand et al., 1996; Mott, 1997; Bailey et al., 1998; Florea et
al., 1998). Por último, los autores utilizaron modelos ab initio para la
predicción de genes basados en los modelos ocultos de Markov (HMM)
implementados en programas como GenScan (Burge y Karlin, 1997), Genie (Kulp et al., 1996; Reese
et al., 2000) y Fgenes (Solovyev y Salamov, 1997). Generalmente estos programas
utilizaron la información depositada de las bases de datos como EnsEMBL, RefSeq
y PFAM, SWISSPROT y TrEMBL como parte del proceso para la construcción de
información requerida.
En
este primer borrador del genoma humano los autores propusieron construir un
índice de genes y un índice de proteínas. El índice de genes construido indicó
un total de 24500 genes para esta primera versión del genoma humano (IHGSC,
2001). Así mismo en esta misma época fue presentada la estrategia computacional
utilizada para el ensamble del genoma de la mosca de la fruta y conocido como
el ensamblador de Celera cuyo diseño algorítmico puede consultarse en Myers et
al. (2000).
LAS
NUEVAS TECNOLOGÍAS DE SECUENCIAMIENTO Y SU IMPACTO EN EL ESTUDIO DEL GENOMA HUMANO
A GRAN ESCALA
El
proyecto genoma humano ha sido comparado por algunos autores como un proyecto
de tanto impacto y de retos para la humanidad como lo fue en su tiempo el
proyecto de viajar a la luna. De acuerdo con el NHGRI, 2016 tras una inversión
cercana a los 2.700 millones de dolares, los costos requeridos y la necesidad
de infraestructura para amplificar a una escala mayor el secuenciamiento de más genomas, conllevó a
enfrentar a los investigadores a nuevos retos computacionales y experimentales
y a la idea de llevar a cabo un desarrollo automatizado masivo que permitiera
identificar variantes genómicas derivadas del análisis genómico con posibles
aplicaciones en la medicina personalizada.
Sin
embargo, los costos invertidos en el secuenciamiento del primer borrador del
genoma humano, plantearon la necesidad de utilizar métodos de secuenciamiento
mucho más económicos y eficientes. Esto condujo al desarrollo de lo que se
conoce hoy en día como tecnologías de secuenciamiento de nueva generación. Para
una revisión más detalla de su desarrollo en comparación con procedimientos
computacionales y otras aplicaciones se puede consultar a Zhang et al. (2011) y
Henson et al. (2012), y Bermudez-Santana (2011) respectivamente. Los nuevos métodos
de secuenciamiento incrementaron la cobertura, basaron sus métodos de
amplificación en otras estrategias sin usar amplificación por clones biológicos
y disminuyeron dramáticamente los costos de secuenciamiento.
Pero
por otro lado, los tamaños de las lecturas producto de este nuevo
secuenciamiento disminuyeron en comparación con las obtenidas por los métodos
de secuenciamiento de Sanger (1975) y Sanger et al. (1977), es decir de una
longitud cercana a los 1000 pares de bases máximas obtenidas por el
secuenciamiento de Sanger, se pasó a una longitud que variaba entre los 35 y
500 pares de bases dependiendo de la tecnología. Entonces ahora, los problemas
de ensamblaje de lecturas se centraron en la búsqueda de sobrelapamiento de
lecturas de menor tamaño y en la búsqueda de estrategias de almacenamiento y de
procesamiento de información producto del alto volumen de datos de las nuevas
metodologías de secuenciamiento que puede superar las gigas en cantidad de
información para un experimento.
Dentro
de las primeras tecnologías, la primera técnica de segunda generación
introducida en el mercado en 2005 se conoció como 454 (Gilles et al., 2011)
cuyo tamaño de lecturas era cercano a 600 pares de bases (actualmente esta
tecnología se encuentra fuera de uso comercial). Con esta tecnología fue
posible el secuenciamiento del segundo genoma humano perteneciente a James
Watson (Wheeler et al., 2008 en Zhang et al., 2011). Posteriormente en el 2007 se
lanzó al mercado Illumina con productos de tamaño de lecturas hoy en día
cercano a los 100 pares de bases y cuya metodología fue utilizada para el
resecuenciamiento del genoma humano en el 2008 (Bentley et al., 2008).
Otro
método comercializado por Life Technologies (CA, USA), SOLiD de Life
Technologies: Applied Biosystems ha sido también utilizado dentro de este marco
de secuenciadores de segunda generación y por primera vez usado en el estudio del
posicionamiento de nucleosomas (Valouev et al., 2008).
Para
una revisión del tema de secuenciadores de segunda generación consulte a
(Metzker, 2010).
Posteriormente
surgieron los métodos de tercera generación
que se basan en el secuenciamiento directo de ADN o conocido como secuenciamiento
en tiempo real de cadena única (en inglés single-molecule real-time (SMRT) sequencing)
(Benjamin et al., 2010) comercializado por Pacific Biosciences–y los métodos
comercializados por Life Technologies: Ion Torrent (Rusk, 2011). Estas
tecnologías pueden producir un tamaño final de lecturas en promedio cercano a
14000 pares de bases y 200 pares de bases, respectivamente. Los métodos de
cuarta generación en proceso de desarrollo y comercialización se basan en la
tecnología del Nanoporo que promete tener aplicaciones en la medicina
personalizada, por ejemplo en Mikheyev (2014) puede consultarse una de sus
aplicaciones en otras áreas de la ciencia.
Aunque
las nuevas tecnologías incrementaron la eficiencia y disminuyeron los costos,
por ejemplo del costo de secuenciamiento
del primer genoma humano de 2.700 millones de dólares americanos se pasó a un
costo cercano a los 5.000 dólares, los nuevos tamaños de lecturas no permitían
continuar con las aproximaciones utilizadas de ensamblaje tradicionales. Henson
et al. (2012) enfatizan que la extensión de concatenación de lecturas y el
posible sobrelapamiento múltiple con más regiones se podría incrementar
conllevando a una mayor cantidad de gaps en los genomas ensamblados. Problemas
similares fueron resaltados por (Wold y Myers, 2008).
Para
el caso particular de genoma humano, incluso extensible a genomas ya
ensamblados, el proceso general reportado para el ensamblaje utilizando
productos de secuenciamiento de última generación es en primer lugar el mapeo o
alineamiento de lecturas al genoma humano de referencia (Zhang et al., 2011) o
proceso conocido como mapeo para genomas re-sequenciados. Este tipo de pasos para
ensamblar genomas utilizando genomas previamente secuenciados difiere en
procedimiento de los pasos utilizados en el ensamblaje de novo, procedimiento
que se fundamentó orginalmente en los principios de los grafos de Bruijn
(Pevzner et al. 2011).
Para
una mejor documentación sobre pasos a tener en cuenta en este tipo de
ensamblaje se puede consultar a Baker (2012). A diferencia del ensamble de de
novo, en el ensamble con genoma de referencia se debe mapear con alta confiabilidad
las pequeñas lecturas al genoma de referencia, millones de lecturas cortas
deben ser mapeadas al genoma de referencia que para el caso del humano,
correspondería a las versiones secuenciadas del genoma humano.
Sin
embargo para lograr con gran efectividad el mapeo, el genoma humano es
comprimido en un conjunto de índices y se usan estructuras de datos conocidas
como árboles de sufijos que facilitan no solo la compresión de cadenas de larga
magnitud que corresponden a cada cromosoma sino el proceso de búsqueda
eficiente de coincidencias de los millones de lecturas obtenidas de un experimento de secuenciamiento de última
generación en el genoma de referencia, una explicación matemática detallada
puede consultarse en Grossi y Vitter (2005).
Dentro
de las diferentes aplicaciones de mapeo más utilizadas se encuentran MAQ
(Mapping and Assembly with Quality) desarrollada por Li et al. (2008, 2009),
Bowtie por Langmead et al. (2009), Segemehl por Hoffman et al. (2009) y SOAP por Li et al. (2008); entre
otras aplicaciones disponibles que pueden ser consultadas en Zhang et al. (2011).
Por otro lado, Magi et al. (2015) indican que una vez el proceso de mapeado
finaliza, una de las estrategias siguientes es identificar el conjunto de
lecturas que representan estadísticamente variaciones con relación al genoma de
referencia. Con estas estrategias es posible identificar lo que se conoce como
variantes de nucleótido sencillas. Para
ello se utilizan herramientas flexibles que almacenan de forma genérica los
alineamientos resultantes de mapeo, estas herramientas pueden almacenar
resultados de mapeo realizado por diferentes estrategias. Un ejemplo de éstas
es SAM-Tools desarrollado por Li et al. (2009) que ha sido utilizada en el
proyecto de secuenciamiento de los 1000 genomas humanos (The 1000 Genomes
Project Consortium, 2010). Otra herramienta disponible es GATK desarrollada por
McKenna et al. (2010). Para una revisión de métodos utilizados para la
identificación de variantes se puede consultar a Medvedev et al. (2009) y
Pirooznia et al. (2014).
FUTURO
Y PERSPECTIVAS DE LA GENÓMICA PERSONALIZADA
Una
de las preguntas derivadas del éxito del secuenciamiento del genoma humano
podría plantearse en relación con su posible
uso para el diagnóstico de enfermedades, es decir, ¿Tendrá la genómica un
impacto en la práctica médica y por consiguiente, también en la salud humana?
Con los cambios en los precios del secuenciamiento del genoma humano, que han
disminuido dramáticamente en los últimos años (se ha llegado a pronosticar un
valor de 1000 dólares americanos por
genoma) la idea de poder vernos más en detalle no es tan lejana y cada vez está
al alcance del soporte al diagnóstico médico. Pero a la vez, la posibilidad de
conocer la secuencia del genoma de un paciente genera problemática desde el punto
de vista ético y logístico, especialmente
cuando se desee integrar la información genómica y su posible uso para el
desarrollo de un fármaco o cuando se requiera planificar un esquema de
combinación de fármacos dirigido a pacientes interesados en enfoques de la
medicina personalizada. Pero por otro lado, aun no se ha evaluado las
implicaciones que en salud pública tengan los efectos de preexistencias
detectadas por el análisis genómico para alcanzar una trabajo o una afiliación
a los sistemas de salud.
Offit
(2011) enfatiza que en el caso de la medicina personalizada por ejemplo, la
genómica personalizada construye los
principios para la integración de la genética dentro de la práctica médica. Sin
embargo, Offit (2011) también recuerda que mecanismos epigenéticos deberán ser
incorporados al modelo genómico de estudio de la enfermedad humana, para lograr
entender la enfermedad como un modelo genético multifactorial que involucra el ambiente
asi como otros modificadores genéticos. Desde el punto de vista de la
farmacología, la posible optimización de la terapia podría lograrse por el uso
de información obtenida de los estudios genómicos, sin dejar atrás la importancia
de evaluar la complejidad del actuar de muchos medicamentos.
Autores
como Sadee y Dai (2005) mencionan que el éxito del descubrimiento de nuevos
fármacos derivados de los estudios genómicos o de estudios farmacogenómicos deberían
tener en cuenta los múltiples procesos que involucran la respuesta de los
pacientes a fármacos y sus combinaciones, si es así, ahora la bioinformática
tendrá nuevos retos para el manejo masivo de datos de las historias clínicas nutridas
con la información genómica y requerirá el uso de la informática aplicada para
conectar los posibles resultados obtenidos de estudios de polimorfismo de
genes, del análisis cuantitativo de factores genéticos así como de la evaluación
de los fenómenos epigenéticos. Todos estos en conjunto requerirán por supuesto
estar conectados con las respuestas a nivel proteómico y metabolómico. Por
tanto, el descubrimiento de nuevos fármacos asi como su posible uso comercial
dependerá de la construcción de protocolos para la extrapolación de sus
posibles beneficios asi como de La necesidad de construir un estructura
jurídica que proteja la confidencialidad de los pacientes. Guttmacher et al.
(2010) enfatizan que para utilizar de forma apropiada y efectiva la información
genómica derivada de un individuo se debe poseer de una infraestructura científica,
logística y ética. La pregunta actual es si estamos preparados o si estamos
construyendo una infraestructura para ello. En este sentido seis reglas
principales se deben seguir para construir una agenda en salud pública que involucre
la genómica como apoyo al diagnóstico médico que pueden ser consultadas en
Burke et al. (2012). Sin embargo debido a la complejidad bio-sico-social de
muchas enfermedades, las políticas de salud pública se verán enfrentadas con
retos de alta complejidad como lo indica McBride et al. (2008).
Aunque
se mantienen igualmente muchos debates éticos alrededor del tema de la genómica
personalizada y su posible impacto en la medicina personalizada muchos investigadores,
entre ellos Harol Elliot Varmus (premio Nobel de medicina y fisiología en
1989), indican que la genómica es tan sólo un modo de hacer ciencia y no medicina.
Entonces de sus palabras podríamos pensar que a los protocolos existentes en
medicina tan sólo se les debe incorporar la información genómica como una
información complementaría similar a los resultados de laboratorio convencionales.
Al respecto el debate continuará en los próximos años.
No hay comentarios.: