BIOINFORMÁTICA EN COLOMBIA

martes, febrero 28, 2017

Docente de la Universidad Tecnológica de Bolívar en expedición científica en la Antártica

Rosa Acevedo Barrios, se encuentra en la Antártica, participando activamente en la III Expedición Almirante Padilla verano austral 2017

Foto tomada en la Armada Nacional

La docente de la Facultad de Ciencias Básicas de la Universidad Tecnológica de Bolívar: Bióloga, Magíster en Microbiología de la Universidad de La Habana (Cuba), y estudiante de cuarto año del Doctorado de Toxicología Ambiental de la Universidad de Cartagena, Rosa Acevedo Barrios, se encuentra en la Antártica, participando activamente en la III Expedición Almirante Padilla verano austral 2017.

La III Expedición Científica de Colombia a la Antártica “Almirante Padilla” 2017, continua con el desarrollo de proyectos de investigación. Colombia proyecta desarrollar aproximadamente 40 proyectos de investigación para el verano austral 2017, con la participación de un estimado de 43 investigadores. 20 científicos de la expedición desarrollarán los proyectos de investigación a bordo del buque Arc “20 De Julio” de la Armada República de Colombia, mientras los otros 23 científicos realizarán las fases de campo de los proyectos a través de la cooperación internacional, en bases y buques de países amigos.

Durante la segunda participación de la Universidad Tecnológica de Bolívar, en este viaje al continente blanco, tiene el firme propósito de explorar el mar y ofrecerle a la Costa Caribe y a Colombia en general nuevos conocimientos que ayuden a la conservación de la vida y avances científicos que permitan al país fortalecer las industrias biotecnológicas.

La docente de la UTB, Rosa Acevedo Barrios, se embarcó en Punta Arenas – Santiago de Chile el pasado 4 de febrero, junto con 17 científicos españoles, en el Buque español Bio-Hesperides rumbo a la Antártica, pasando por el estrecho de Magallanes y luego por el canal de la Patagonia. Hoy en la Antártida sigue el proyecto en torno a los “Tardígrados y bacterias asociadas de la Antártica”, una investigación con la que la UTB aspira hacer aportes muy útiles desde la taxonomía hasta la biología molecular y ser reconocida en lo más selecto del mundo científico internacional.

Acerca de Rosa Acevedo

Bióloga de la Universidad del Atlántico, Magíster en Microbiología Universidad de La Habana (Cuba). Estudiante de segundo año del Doctorado de Toxicología Ambiental de la Universidad de Cartagena. Diplomados en Habilidades Docentes; y en Ambientes de Aprendizaje virtuales de la Universidad Tecnológica de Bolívar; en Docencia Universitaria de la Universidad Javeriana; en Gestión de Calidad del Colegio Mayor de Bolívar; en Investigación de la Corporación Universitaria Rafael Núñez-RIESCAR; en Competencias Comunicativas I y Competencias Comunicativas II y en Docencia en Educación Superior de la Corporación Universitaria Rafael Núñez. Curso de entrenamiento básico en RT-PCR como herramienta para la cuantificación de la expresión diferencial de genes: Énfasis en el estudio de la Enfermedad inflamatoria intestinal. Universidad de Cartagena 2013 y Curso de Aplicaciones de la microscopia en ciencias biológicas. XII Congreso Interamericano de Microscopía (CIASEM 2013). Universidad Tecnológica De Bolívar 2013.

Publicaciones

· (Artículo completo)"Aspectos de Bioseguridad en el desempeño del Centro Experimental de Investigación y Docencia (CEID) de la Corporación Universitaria Rafael Núñez”. En: Colombia Laboratorio Actual. Memorias Sexto Congreso Internacional Del Colegio Nacional De Bacteriólogos ISSN: 1794-6220 ed:Editorial Códice Ltda. (Bogotá) v.21fasc.38 p.86 - 86, 2005.

· (Libro) "MANUAL DE MÉTODOS ANALÍTICOS PARA LA DETERMINACIÓN DE PARÁMETROS FISICOQUÍMICOS BÁSICOS EN AGUAS" En: España 2013.ed:eumed.netISBN: ISBN-13: 978-84-1577v.0pags.101.

· (Libro) "BIOLOGÍA Y MICROBIOLOGÍA AMBIENTAL" En: España 2013. ed:eumed.net ISBN: 978-84-15774-93-8 v. 1 pags. 89

Fuente: Caracol Radio

lunes, febrero 27, 2017

Hipercolesterolemia familiar: cuando el colesterol es una herencia peligrosa

La Hipercolesterolemia familiar se clasifica en homocigota y heterocigota. La homocigota tiene una prevalencia cercana a 1 en un millón mientras que en la heterocigota se presenta un caso por cada 500 habitantes.

- En Colombia hay 13.218 pacientes diagnosticados con alguna enfermedad huérfana según el último censo que realizó el Ministerio de Salud y Protección a través de Cuenta de Alto Costo. La Hipercolesterolemia Familiar Homocigota hace parte de esta lista.

- Las personas con Hipercolesterolemia Familiar Homocigota tienen hasta 20 veces más probabilidades de sufrir una enfermedad coronaria o de presentar episodios cardiovasculares a temprana edad según la Fundación Hipercolesterolemia Familiar de España.

La hipercolesterolemia familiar es la enfermedad genética más frecuente transmitida de padres a hijos en la que se presenta un aumento de los niveles de colesterol total en la sangre por encima de los niveles establecidos (mayor a 190 mg/dL). Está dado por distintas mutaciones genéticas que entorpecen la correcta eliminación del colesterol LDL en el hígado. A pesar de que no se manifiesta notablemente hay algunos casos en los que se producen signos y síntomas y puede ser diagnosticada a través de un análisis de sangre que indique los niveles de colesterol y específicamente colesterol LDL.

Menos del 10 % de los casos están diagnosticados y solamente el 5 % de ellos son tratados de manera correcta según la Revista Colombiana de Cardiología. La hipercolesterolemia familiar es una enfermedad subdiagnosticada y subtratada y por eso es fundamental identificar cuáles son sus clasificaciones, consecuencias y cómo se puede detectar oportunamente.

Se manifiesta en su forma homocigota (HFHo) cuando el papá y la mamá del paciente tienen Hipercolesterolemia Familiar, es decir, que la persona tiene el gen que metaboliza mal el colesterol y por eso presenta niveles severamente altos del mismo. Según el doctor Rafael Campo, especialista en Cardiología Clínica, aproximadamente el 70 % del nivel de colesterol en la sangre depende de la genética y el 30 % restante de las condiciones ambientales.

Pese a que el género, la presencia de diferentes situaciones patológicas, el peso corporal, la alimentación, el consumo de alcohol y tabaco, el ejercicio físico, el estrés y los antecedentes familiares influyen en los niveles de colesterol en personas que no tienen herencia de colesterol alto cuando se trata de una condición genética ninguno de estos factores va a cambiar significativamente los niveles elevados de colesterol en la sangre.

Aunque la enfermedad es silenciosa estas son algunas de las manifestaciones más comunes:

- Aparición de bolsas de grasa que se forman en los párpados, conocidas como xantelasmas.

- Acumulación de colesterol en forma de nódulos en la unión de los dedos de la mano, rodillas, codos y otras partes del cuerpo.

- Episodios de obstrucción de las arterias en las piernas o el cuello

- Eventos de trombosis cerebral.

El diagnóstico temprano puede reducir considerablemente la morbilidad y mortalidad. La obstrucción de arterias es mucho más agresiva y se aumenta la posibilidad de presentar enfermedad coronaria prematura y eventos cardiovasculares antes de los 33 años y muerte a los 18 años en pacientes no tratados según el doctor Rafael Campo.

Aunque la Hipercolesterolemia Familiar Homocigota no tiene manera de ser prevenida el mejor tratamiento para esta enfermedad rara es el diagnóstico precoz. Según la Red Iberoamericana de Hipercolesterolemia Familiar de España existe sospecha de padecerla cuando se tiene el colesterol LDL por encima de 500.

Es por esto, que en el marco del día mundial de las enfermedades huérfanas la Red Colombiana de apoyo a pacientes con Hipercolesterolemia Familiar, RedColHF, invita a toda la comunidad a participar del evento que se llevará a cabo en el Parque de los Novios el próximo 26 de febrero de 9 a.m. a 4 p.m.

Con el fin de compartir experiencias con diferentes pacientes en una jornada de sensibilización, divulgación e integración sobre las enfermedades huérfanas.

RedColHF: la red de apoyo a pacientes con hipercolesterolemia familiar en Colombia

En Colombia, RedColHF es una red de apoyo a pacientes con diagnóstico de hipercolesterolemia familiar que pertenece a ACOPEL. Esta organización nace con el objetivo de difundir, de manera masiva, el conocimiento de esta patología para brindar educación y asesoría oportuna a todas las personas que puedan llegar a presentar esta enfermedad.

Entre sus objetivos, está el capacitar tanto a pacientes como doctores para que pueda fortalecerse la atención a los pacientes que presentan esta enfermedad en Colombia. Por tanto, cualquier persona que presente esta patología puede acercarse a la fundación con el fin de solicitar ayuda y acompañamiento en su proceso.

Como apoyo a las personas con esta enfermedad, RedColHF además busca realizar un acompañamiento individual con los pacientes, suministrando literatura especializada para que ellos puedan apropiarse de los temas referentes a su enfermedad, así como asesoría para poder acceder al servicio de salud requerido para su tratamiento.

Fuente: Caracol Radio

domingo, febrero 26, 2017

El centro computacional ‘BIOS’ internacionaliza a Manizales

Afortunadamente, el impulso a la ciencia, la tecnología y la innovación no se ha quedado en las principales capitales de Colombia. Ciudades intermedias como Manizales también han decidido invertir en espacios de investigación que hoy en día la ubican como una de las regiones más innovadoras de nuestro país.

Uno de estos espacios es el Centro de Bioinformática y Biología Computacional ‘Bios’, que abrió sus puertas en 2013 con el apoyo del Ministerio TIC, Colciencias, Microsoft y la Cámara de Comercio de Manizales. Bios se dedica a la prestación de servicios para el sector gobierno, la academia y la industria; cuando estos se encuentran interesados en la investigación y el desarrollo de la biotecnología y la bioprospección de recursos naturales y biodiversos del país.

Lo anterior significa que Bios proporciona herramientas computacionales en relación con lo que ellos denominan ‘las ciencias de la vida': desarrolla software; almacena y procesa datos suministrados por su equipo de investigadores o por miembros de otros grupos de investigación; adelanta actividades académicas y educativas; asesora y orienta investigaciones sobre el uso de datos y su interpretación; y participa en el desarrollo de investigaciones que requieran el uso de sus dispositivos de procesamiento de datos, en diversas áreas del conocimiento.

Algunos de sus proyectos más destacados son la genómica de la palma de cera -el árbol nacional de Colombia- que tiene como fin obtener el primer borrador del genoma de la palma de cera (Ceroxylon quindiuense), por medio de secuenciación NGS (Next Gen Sequencing); además de ejecutar protocolos de rehabilitación para pacientes con discapacidad visual.

Otro proyecto de Bios que vale la pena destacar es el genoma colombiano. Esta iniciativa analiza la información genética de la población del país para caracterizarla y entender sus potencialidades, posibles enfermedades y ancestría. La información que surja de allí, además de ser importante para los individuos, tiene alto valor en la toma de decisiones relacionadas con políticas de salud y posibles intervenciones médicas; y podría almacenarse en un banco genético centralizado de la población colombiana.

Como estos, hay siete proyectos más en curso –impulsados por un equipo de 33 profesionales– que prueban que Manizales tiene mucho que aportarle a Colombia y el mundo. Tal y como lo afirmó el Ministerio TIC en su momento, “el potencial del eje cafetero son la agroindustria y la biología computacional”.

FUENTE: ENTER.CO

Cursos en Colombia: especialízate en ciencias biológicas

La Universidad CES invita a estudiantes y profesionales a participar en sus cursos sobre ciencias biológicas.

Conoce los tres cursos sobre ciencias biológicas que ofrece la Universidad CES.

DIPLOMATURA EN ETOLOGÍA Y MODIFICACIÓN DE CONDUCTA APLICADA EN CANINOS Y FELINOS

Lugar: UNIVERSIDAD CES

Duración: 101 horas

Objetivo: estudiar el comportamiento animal como una disciplina científica y en continua evolución; descubrir mediante la observación y el análisis, el por qué los animales en determinadas situaciones modifican sus patrones de conducta; brindar al estudiante/profesional herramientas básicas de conocimientos en cuanto al comportamiento de los animales, para identificar alteraciones y sus posibles tratamientos.

CURSO DE ACTUALIZACIÓN EN GENÓMICA CLÍNICA GENOMACES

Lugar: UNIVERSIDAD CES

Duración: 10 semanas

Objetivo: actualizar a los médicos sobre la secuenciación de genomas, bioinformática, biología computacional, genómica clínica, y variantes genéticas asociadas a enfermedades de sus diferentes especialidades.

DIPLOMATURA EN BIOTECNOLOGÍA DE LA REPRODUCCIÓN

Lugar: UNIVERSIDAD CES

Objetivo: Aprender sobre la utilización de biotecnologías reproductivas en la especie bovina y equina, como: evaluación reproductiva con ultrasonido, manejo de donantes y receptoras, transferencia de embriones, criopreservación de gametos, producción in vitro de embriones.

FUENTE: UNIVERSIA.NET

sábado, febrero 25, 2017

Diseño de un modelo bioinformática para la detección, identificación y clasificación de genes codificantes.

Este trabajo presenta la implementación de una herramienta bioinformática que permite comparar de la secuencia de una posible ß-lactamasa aislada de un microorganismo resistente con las ya reportadas, predecir su clasificación y almacenar los datos clínicos de resistencia frente a antibióticos y de localización del aislamiento, para que sirvan como base futura en el seguimiento epidemiológico y en el manejo racional de los antibióticos en los ámbitos nacional e internacional.

Un prototipo de sistema informático con estas características constituye una herramienta de apoyo importante para los comités de infecciones de las instituciones hospitalarias, en el seguimiento del manejo y comportamiento de la resistencia de los antibióticos, ya que en la medida en que se acumulen los datos con el paso del tiempo, éstos permitirán hacer análisis tanto prospectivos como retrospectivos del comportamiento epidemiológico de la resistencia bacteriana, mediada por ß-lactamasas, en el ámbito hospitalario. Por tratarse de un problema multifactorial, el modelo propuesto pone a disposición del medio una parte importante de los datos sistematizados y jerarquizados asociados con la resistencia que presentan los microorganismos productores de ß-lactamasas, la cual se puede cruzar con las demás fuentes de datos disponibles, de tal forma que se puede llegar a tener un entendimiento integral del problema y a generar bases locales que agilicen y fortalezcan la toma de decisiones.

METODOLOGIA

Se basa en la estrategia para el diseño de sistemas de información y comprende cuatro fases fundamentales:

Búsqueda de secuencias

Se realizó la búsqueda de datos por medio del Sistema de Recuperación de Secuencias (SRS) implementado por el Instituto Europeo de Bioinformática (EBI) (10), el cual realiza la recuperación de secuencias y otros datos biológicos mediante un sistema indexado que permite hacer el cruce simultáneo de varias bases de datos y responde a consultas complejas.

Organización de las secuencias

Las secuencias fueron jerarquizadas con la finalidad de facilitar el diseño de una base de datos para almacenar estas y otros datos biológicos asociados, útiles para mantener la referencia entre la base de datos Uniprot y los datos clínicos almacenados localmente.

Selección de los datos clínicos

Tomando en cuenta las referencias bibliográficas, con la asesoría de expertos de las áreas clínica y epidemiológica, se seleccionó un conjunto de datos clínicos utilizando como referencia los campos incluidos en la base de datos del software Whonet (10). Estos datos se correlacionaron con el tipo de microorganismo, la clase de ß-lactamasa producida, su resistencia frente a los antibióticos ß-lactámicos, terapias previas y la localización fuente del aislamiento, entre otros.

Modelamiento de los datos moleculares y clínicos

Con los datos seleccionados se elaboró un modelo utilizando Unified Modeling Language UML (14), que permite cruzar datos moleculares y clínicos, de tal forma que se pueden caracterizar las ß-lactamasas de microorganismos intrahospitalarios resistentes y hacer un seguimiento del manejo de los antibióticos y el comportamiento epidemiológico. El sistema de información BLA_ID_CLINIC fue implementado en un servidor SUN Z40 del grupo de Bioinformática del Instituto de Biotecnología de la Universidad Nacional de Colombia, con sistema operativo Linux SUSE 10, servidor web Apache versión 2.0; PHP versión 4.3.4; MySQL versión 4.0.18 y lenguaje Perl versión 5.8.3

FUENTE Revista Colombiana de Ciencias Químico - Farmacéuticas

Cómo los algoritmos dominan (secretamente) el mundo

Los algoritmos dominan nuestra vida cotidiana

"Los algoritmos no son necesariamente equitativos, puesto que es la persona que los crea la que define su funcionamiento y sus resultados", subraya Cathy O‘Neil, una científica especializada en datos informáticos y autora del libro Armas matemáticas de destrucción, que critica el uso generalizado y opaco de los algoritmos.

Durante un reciente foro organizado por el centro de reflexión New America, O‘Neil alertó sobre la "confianza ciega" depositada en los algoritmos para obtener resultados objetivos.

El algoritmo más célebre es sin dudas aquel que permitió a Google imponerse en el sector de los motores de búsqueda y que es constantemente modificado y mejorado para brindar el resultado más aproximado a lo que requiere el internauta.

También Facebook utiliza un famoso algoritmo que analiza todos los datos de sus usuarios para ayudarlos a encontrar nuevos amigos y el contenido más adaptado a sus aspiraciones.

Pero los algoritmos también sirven para detectar un cáncer de piel y redactar artículos a partir de datos brutos.

También se usan en política. La campaña del presidente estadounidense Donald Trump se sirvió de datos de firmas de marketing que utilizan algoritmos que identifican los lugares con mayor tasa de electores susceptibles de ser convencidos por los argumentos de un candidato.

Consecuencias nefastas

Cathy O‘Neil cita varios ejemplos en los que los algoritmos tuvieron efectos nefastos.

En 2010 escuelas públicas de Washington despidieron a más de 200 profesores, algunos de ellos sumamente respetados, en función de una evaluación realizada por un algoritmo.

Algunas colectividades locales asignan sus recursos destinados a poblaciones desfavorecidas en función de criterios elaborados a partir de fórmulas matemáticas. La manera en que los datos son ingresados puede influir en el resultado.

Lo mismo sucede a la hora de determinar penas de cárcel. Datos como el barrio del que es originario el condenado o sus frecuentaciones pueden influir en la decisión del juez.

Le puede interesar: Hallan el origen de la epilepsia con algoritmos

En el terreno financiero, el uso de algoritmos para otorgar créditos y asignar seguros puede desfavorecer aún más a aquellos que ya forman parte de los sectores más vulnerables.

Un informe de la Casa Blanca publicado el año pasado ya advertía que el uso de algoritmos en sustitución de la intervención humana podía llevar a perjudicar aún más a los más pobres.

Migajas informáticas

Zeynep Tufekci, profesora en la Universidad de Carolina del Norte especializada en tecnologías, recuerda que las decisiones tomadas automáticamente se basan a menudo en datos recopilados sobre las personas, incluso sin que estas estén informadas al respecto.

"Estos sistemas informáticos pueden deducir cantidad de cosas de nuestras migajas informáticas aun si tomamos precauciones para no revelar nada", dijo la investigadora en una reciente conferencia TED, un organismo sin fines de lucro que organiza seminarios en todo el mundo.

"Pueden deducir preferencias sexuales, rasgos de personalidad, ideas políticas" de las personas. "Tienen un poder de previsión que puede llegar a ser extraordinariamente exacto", señaló

Según Frank Pasquale, profesor de derecho en la Universidad de Maryland, los usos no equitativos de datos pueden ser corregidos por leyes de protección de los consumidores.

Le recomendamos: La inteligencia artificial irrumpe de a poco en la vida cotidiana

La legislación vigente en la Unión Europea sobre la protección de datos y el "derecho a la explicación" de que goza una persona que dice ser víctima de una decisión tomada a partir de un algoritmo "merece ser estudiada".

Para Alethea Lange, analista del Centro para la Democracia y la Tecnología, un modelo de ese tipo "suena bien" pero "es realmente muy pesado" y difícil de implementar eficazmente por la permanente evolución de los algoritmos. La educación y el debate son más importantes que la legislación, destacó.

Daniel Castro, vicepresidente de la Fundación para la Innovación y las Tecnologías de la Información, sostiene por su lado que los algoritmos no deben ser los chivos expiatorios de los males sociales.

Decisiones automáticas adoptadas a partir de fórmulas matemáticas permiten "acciones más rápidas, más eficaces para los consumidores, las empresas y los gobiernos", defiende.

Y sostiene que los despidos por prejuicios sociales, por ejemplo, existen también "en el mundo no-algorítmico".

Fuente Revista Semana

viernes, febrero 24, 2017

Con ayuda de biotecnología buscan preservar el Chino Santandereano

Desde hace varios años, el Círculo de Excelencia 'Chino Santandereano', compuesto por productores de los municipios de San Gil y Socorro, se ha convertido en un referente de conocimiento en cría y producción de esta raza.

Uno de sus miembros se ha dedicado y le ha apostado al uso de la biotecnología como la inseminación artificial, la transferencia de embriones, los marcadores genéticos y la clonación para intentar preservar esta raza criolla que está en riesgo de extinción.

Andrés Rivero García, productor de San Gil y miembro del círculo de excelencia, explicó que los avances que ha desarrollado en su finca, que se llama Payande, y los está haciendo de la mano y con el acompañamiento del laboratorio Genescol, una empresa de biotecnología de ganaderos santandereanos.

“En mi caso personal, cuento con un toro puro muy representativo de la raza chino santandereano que tiene casi 10 años de edad y para efectos de conservar la genética de este ejemplar y la raza que casi está en vía de extinción se tomó la decisión de clonarlo”, expuso Rivero.

Agregó que ya se ha adelantado el congelamiento de células y semen del animal y que la idea es reproducirlo antes de que culmine el primer semestre del año.

En cuanto a las características del animal, el ganadero de San Gil y miembro del Círculo de Excelencia indicó que el toro es muy característico de la raza, que ha producido excelentes crías y tiene rasgos y cualidades muy marcadas como el prepucio recortado, costillar amplio, entre otras. Aseveró que es un ejemplar que vale la pena conservar y utilizar en un futuro.

Laudy Pérez Ovalle, profesional de Proyectos Estratégicos del Fondo Nacional del Ganado, FNG en el sur del Santander, habló un poco más acerca del trabajo que se ha venido realizando en la finca Payande y contó que allí iniciaron con un programa de repoblamiento bovino de ganado Chino Santandereano y Blanco Orejinegro desde 2009 a través de la monta natural, inseminación artificial y transferencia de embriones.

La profesional del FNG manifestó que el Círculo de Excelencia 'Chino Santandereano' con el apoyo de la Corporación Colombiana de Investigación Agropecuaria, Corpoica, está trabajando en la posibilidad de realizar marcadores genéticos en aras de preservar de la especie.

También dijo que Rivero ya ha adelantado un trabajo importante en el tema de la preservación de material genético congelando semen y embriones de esta raza criolla.

La raza chino santandereano es una especie que se cría y se conserva en unas condiciones muy precarias, posee una gran resistencia al verano, a las garrapatas, puede mantenerse sin vacunas, tiene una buena rusticidad y longevidad.

Los miembros del Círculo consideran que sería un grave error permitir que la raza se extinga, por lo cual trabajan incansablemente en su preservación.

FUENTE Contexto Ganadero

Maestría en Bioinformática y Biología Computacional

Perfil Aspirante:

La maestría va dirigida a profesionales del área de la ingeniería informática, ingeniería de sistemas, biología, ciencias agrarias, matemáticos, biomédica, e ingenierías afines, como ingeniería electrónica, eléctrica, telecomunicaciones y sistemas. En general, a profesionales interesados en profundizar en el campo de la Bioinformática y Biología Computacional.

Para el profesional que no pertenezca a las áreas mencionadas anteriormente, el Comité Curricular de la maestría determinará los mecanismos de aceptación, analizando la opción de diseñar un plan curricular en el que se incluyan asignaturas que permitan nivelar conocimientos previos al abordaje del plan de estudios propio de la maestría.

OBJETIVOS:

Objetivo general

Formar Magísteres en Bioinformática y Biología Computacional con la finalidad de contribuir al fortalecimiento de personal calificado para modelar, sistematizar, simular procesos, interpretar y analizar información biológica obtenida a partir de la biodiversidad con aplicación en los sectores médico, industrial, farmacéutico , cosmético, agropecuario y agroalimentario, con el fin de generar productos, bienes y servicios que apoyen la solución de problemas de la región y el país fundamentado en la ética y la sensibilidad social.

Objetivos Específicos

Desarrollar habilidades investigativas para cualificar el talento humano y contribuir con el desarrollo del país.
Promover la profundización y divulgación del conocimiento científico en áreas de Bioinformática y Biología computacional.
Formar Magísteres con idoneidad humanística y científica con compromisos éticos para hacer parte de equipos interdisciplinarios que apoyen en la solución de problemas de la región y el país.

INFORMACIÓN DE CONTACTO:

Universidad de CaldasFacultad de IngenieríaDepartamento de sistemas e informáticaPrograma de Maestría en Bioinformática y Biología Computacional

Teléfono 8781500 Extensión: 13146Dirección electrónica: maestria.bioinformatica@ucaldas.edu.co

Director del Programa:
Luis Fernando Castillo OssaCorreo: luis.castillo.@ucaldas.edu.co

Universidad Autónoma de Manizales

Teléfono 8727272 Extensión: 198
Dirección electrónica: maestria.bioinformatica@autonoma.edu.co

Universidad de Manizales

Teléfono 8879680
Dirección electrónica: maestria.bioinformatica@umanizales.edu.co

Universidad Católica de Manizales

Teléfono 8782900
Dirección electrónica: maestria.bioinformatica@ucm.edu.co

Fuente

http://www.ucaldas.edu.co/portal/maestria-en-bioinformatica-y-biologia-computacional/

jueves, febrero 23, 2017

APLICACIÓN DE LA MINERÍA DE DATOS EN LA BIOINFORMÁTICA

En los últimos años, la minería de datos (data mining) ha experimentado un auge como soporte para las filosofías de la gestión de la información y el conocimiento, así como para el descubrimiento del significado que poseen los datos almacenados en grandes bancos. Esta permite explorar y analizar las bases de datos disponibles para ayudar a la toma de decisiones; además de facilitar la extracción de la información existente en los textos, así como crear sistemas inteligentes capaces de entenderlos, a esto se denomina comúnmente como minería de textos (text mining). Se describen sintéticamente los componentes básicos de la minería de datos y su aplicación en una emergente y trascendental actividad científica: la bioinformática.

miércoles, febrero 22, 2017

APLICACIONES DE LA BIOINFORMÁTICA EN LA MEDICINA: EL GENOMA HUMANO. ¿CÓMO PODEMOS VER TANTO DETALLE?

A continuación se expone una identificación del esfuerzo del trabajo interdisciplinario liderado por la bioinformática, de los principales desarrollos de programas de cómputo que permitieron llevar a cabo el secuenciamiento del primer genoma humano y de su uso para resolver los problemas derivados de los métodos de secuenciamiento de nueva generación, que como resultado produjeron el secuenciamiento del segundo genoma humano y el secuenciamento de 1000 genomas humanos. Por último se introducen los retos de la era de la genómica personalizada y su posible unión con la medicina.

INTRODUCCIÓN

Uno de los principales retos de la medicina reconocido por muchos investigadores desde el secuenciamiento del genoma humano, ha sido identificar a escala genómica la variación génica que puede estar asociada con algunas enfermedades humanas. Líderes mundiales han trabajado en el desarrollo de metodologías experimentales, modelos matemáticos y computacionales para continuar estudiando e identificando las variaciones que pueden detectarse a partir del análisis genómico. Investigadores y líderes del estudio de la genómica, entre ellos, Michael Snyder (Director del Centro de Genómica y Medicina Personalizada de la Universidad de Stanford) nos señala “que la genética y la genómica están experimentando una revolución extraordinaria y nuestra misión es continuar liderando esta revolución para una mejor comprensión de la biología y la salud humana” (Chen y Snyder, 2014).

En el artículo se presenta una reflexión e identificación del esfuerzo del trabajo interdisciplinario liderado por la bioinformática, de los principales desarrollos de programas de cómputo que permitieron llevar a cabo el secuenciamiento del primer genoma humano y de su uso para resolver los problemas derivados de los métodos de secuenciamiento de nueva generación, que como resultado produjeron el secuenciamiento del segundo genoma humano y el secuenciamento de 1000 genomas humanos. Por último se introducen los retos de la era de la genómica personalizada y su posible unión con la medicina.

PRELUDIO BIOINFORMÁTICO

Sin lugar a dudas, los logros de la genética molecular y la biología celular en el pasado han sido acompañados de los avances computacionales necesarios para el procesamiento de la información genética. En palabras de Ouzounis y Valencia (2003) este primer acercamiento a la influencia de la bioinformática sobre la biología molecular, no solo recuerda el continuo avance en la vida moderna gracias al desarrollo de la informática, sino el de su influencia para convertirla en uno de los campos altamente visibles de la ciencia moderna.

En los orígenes de la bioinformática muchos de sus pioneros desarrollaron los principios fundamentales para construir el complejo marco conceptual requerido, desde el punto de vista computacional, para responder a preguntas relacionadas con la variación en las secuencias de los genes, de las proteínas y de los genomas. Estos primeros trabajos no se escaparon de la tarea convencional que se hace en la bioinformática que es en principio trasladar problemas biológicos a problemas computacionales.

Aunque la complejidad de los problemas biológicos no siempre puede ser resuelta computacionalmente, debido a la carencia de algoritmos o modelos matemáticos o por limitantes de equipos de cómputo de alto poder que puedan calcular operaciones para resolverlos, si podemos reconocer en los pioneros de la bioinformática el valor de haber soñado con lo imposible en su época, ya que no se conocía la secuencia del genoma de ningún organismo, y sin embargo hicieron parte de la construcción del andamiaje teórico que le permite hoy en día a miles de investigadores en el mundo realizar el análisis genómico.

Por ejemplo, al inicio de los años 90 ya se habían diseñado e implementado algoritmos para el análisis comparativo de secuencias de proteínas y de genes o para la búsqueda de patrones o repeticiones (Ouzounis y Valencia, 2003), esto cuando aún no se había secuenciado el genoma de un organismo vivo, sólo se habían secuenciado los genomas de los virus ΦX174 (Sanger et al., 1977) y del herpes Epstein-Bar (Baer et al., 1984). Años después, en 1995 se publicaron los primeros genomas bacterianos para las especies Haemophilus influenzae (Fleischmann et al., 1995) y Mycoplasma genitalium (Fraser et al., 1995).

En estos primeros años se construyó la teoría para la comparación de secuencias de proteínas basada en los trabajos de construcción de las matrices de sustitución y de matrices PAM liderados por Dayhoff (Dayhoff et al., 1978), que posteriormente fue adaptada para el estudio de secuencias de DNA y conceptualmente modificada para el análisis de secuencias más largas. Este primer gran

avance es conocido en el lenguaje de la bioinformática como el alineamiento de cadenas y de secuencias utilizado para comparar dos o más secuencias de ADN o ARN o de proteínas y cuantificar su grado de similitud.

Los modelos de alineamiento global para pares de cadenas fueron desarrollados por Needleman y Wunsch (1970), incluyendo restricciones por inserciones o deleciones por Sankoff (1972) y el uso de matrices de mutación por Dayhoff et al. (1978) que fueron extendidos para alineamiento locales por Smith y Waterman (1981a;1981b). Posteriormente, Feng y Doolittle (1987) diseñaron los algoritmos que permiten el análisis comparativo múltiple de más de dos cadenas. Por otro lado, se diseñó la familia de algoritmos que basan su búsqueda en bases de datos como FASTA (Wilbur y Lipman, 1983; Lipman y Pearson, 1985), y los basados en perfiles de secuencias por Gribskov et al. (1987).

De forma paralela al desarrollo e implementación de algoritmos para el análisis de secuencias, no se puede dejar a un lado la importancia de buscar la manera eficiente de almacenar la información para poder consultarla eficientemente. Ouzounis y Valencia (2003) indican que la creación de las dos primeras fuentes para el almacenamiento de datos de secuencias de genes y proteínas se realizó antes de los 90, conocidas actualmente como el GenBank (Bilofsky et al., 1986) y el EMBL Data Library (Hamm y Cameron, 1986).

Posteriormente en el año 2002, se creó el DDBJ (Banco de Datos del Japón). Además, en estos años se dieron las primeras iniciativas para la construcción de redes de comunidades de la bioinformática, que permitieron, canalizar y difundir los desarrollos en el campo, para permitir una comunicación a nivel mundial entre los investigadores como lo fueron BIONET (Smith et al., 1986; Kristofferson, 1987) y EMBNET (Lesk, 1988).

EL GENOMA HUMANO: INICIOS DE SU CÓMPUTO

El termino bioinformática en sus inicios no era parte del lenguaje utilizado por los biólogos, sino un término común utilizado por matemáticos y científicos de la computación interesados en el tema, situación contrastante con el uso actual de esta disciplina altamente difundida en la biología.

Pese a esto, es importante resaltar que a finales de los años 80 ya existían muchos laboratorios de biología molecular que habían iniciado los análisis de comparación de secuencias en micro-computadores en donde podían controlar de forma personal el flujo de análisis (Cannon, 1990). Por esa misma época se incrementó el volumen de datos producto de los resultados experimentales de los trabajos de los biólogos moleculares y se empezó a discutir sobre las necesidades de incremento de capacidad de computo para analizarlos dando inicio a una gran etapa que consistió en evaluar la necesidad de capacidades computacionales para el almacenamiento y procesamiento de información requeridos para el futuro desarrollo del proyecto genoma humano (Kelly, 1989). Entre 1988 y 1989 se había fundado el Centro HUGO (The Human Genome Organisation) por parte del Departamento de Energía (DOE) (quienes tuvieron la iniciativa del proyecto en 1986) y el Instituto Nacional de Salud de los Estados Unidos. Posteriormente en 1993, HUGO se transformó en el Instituto Nacional de Investigaciones del Genoma Humano: NHGRI (National Human Genome Research Institute), NHGRI, 2016. A finales de 1998 se publicó el primer repositorio de acceso público sobre el genoma humano en el Genome Database (GDB) (Letovsky et al., 1998), el cual posteriormente trasladó parte de su información al GenBank (Benson et al., 2013) el cual es actualmente manejado por el “National Center for

Biotechnology Information” (NCBI).

También surgió la iniciativa de publicar los avances del proyecto del genoma humano y se creó la primera serie en 1989 de las hojas informativas oficiales del DOE tituladas: “Human Genome quarterly” posteriormente conocida como Human genome news, que hasta el año 2002 publicó las principales noticias asociadas a los avances del proyecto genoma humano. En su primera entrega (Human Genome Quartely, 1989) se publicaron entre otros datos, los objetivos del grupo de trabajo computacional del genoma humano resumidos así:

1. Asesorar sobre los términos técnicos, necesidades, costos y requisitos computacionales.

2. Dar respuesta focalizada para responder a necesidades computacionales requeridas para acompañar los esfuerzos experimentales.

3. Mantener un foro para la discusión detallada sobre los avances e investigación requerida dentro de la comunidad del DOE.

4. Desarrollar protocolos para compartir datos en redes, y

5. Ofrecer un puente de comunicación oficial entre el sector privado y el DOE para negociar permisos y acuerdos de uso comercial derivados del proyecto genoma humano.

Adicionalmente se presentó el resumen general del primer gran taller realizado a finales de 1988 en Santa Fé, Nuevo México, cuyo objetivo fue reforzar la importancia de construir una interface entre ciencia computacional y metodologías de secuenciamiento de ácidos nucleicos.

En dicho taller no sólo se identificaron las necesidades de programas de cómputo robustos, también se enfatizó en la necesidad no sólo de construir y extender la base teórica computacional para identificar la funcionalidad de las secuencias de ADN sino en la de desarrollar dispositivos de computo especializados para el análisis de secuencias (Human Genome Quarterly, 1989).

En palabras de DeLissi (2008) se podría resumir que en este taller, sin opacar por su puesto la importancia del taller de Santa Cruz en 1985 (Sinsheimer, 1985), se formalizó la delicada urgencia de evaluar si costos, complejidad técnica experimental y necesidades de métodos computacionales, podían en forma sincrónica e industrializada trabajar en conjunto para balancear la producción de información procesada y la producción masiva producto del secuenciamiento.

Entonces, en los inicios de los años 90 se da inicio al auge en la publicación de paquetes informáticos diseñados para incrementar la velocidad de cómputo para la comparación de secuencias de proteínas y de ADN (ya que los algoritmos diseñados por Needleman y Wunsch (1970) y Smith y Waterman (1981a; 1981b) tenían limitaciones de tiempo de ejecución) y aunque previamente existían heurísticas para la comparación de secuencias conocidas como la familia de algoritmos FASTA (Wilbur y Lipman, 1983; Lipman y Pearson, 1985), la técnica sofisticada de filtrado llamada BLAST por su sigla en inglés de Basic Local Alignment Search Tool (Altschul et al., 1990), fue elegida para el portal del NCBI por su velocidad y mejor tratamiento estadístico y quizás hoy en día es uno los paquetes de computo ampliamente utilizados para búsqueda de similitud entre secuencias. BLAST sigue siendo actualmente una de las herramientas ampliamente difundida y usada como primera estrategia para identificar homología entre secuencias. Adicionalmente en estos años los primeros recursos sofisticados para la predicción de genes fueron publicados (Ouzounis y Valencia, 2003) por Brunak et al., (1990); Mural y Uberbacher, (1991); States y

Botstein (1991); Fickett y Tung, (1992) y Guigo et al., (1992).

Sin embargo, adicional al problema de comparar y anotar los genes abordado por los pioneros de la bioinformática, es decir la construcción del andamiaje teórico requerido para resolver el problema de asignar sentido a la información secuenciada, un nuevo reto computacional surgió como requisito para poder ensamblar en cadenas largas de ADN, las piezas o lecturas (productos resultantes de las técnicas de secuenciamiento). Hasta el día de hoy las técnicas de secuenciamiento de genomas utilizan métodos que secuencian el ADN no de forma directa sino a partir de pedazos obtenidos de su fragmentación al azar. No es posible con las plataformas disponibles en el mercado lograr en un único paso o reacción directamente una única lectura que corresponda a la cadena completa de un genoma. El reto computacional que se derivó entonces, fue resolver computacionalmente cómo los fragmentos deberían ser ensamblados o fusionados de forma correcta y consecutiva.

De forma muy general se podría entender hoy en día el proceso de ensamblaje de genomas como un proceso de concatenación de lecturas sobrelapadas de sus extremos iniciales y finales. Henson et al. (2012) exponen la idea que es importante buscar las coincidencias de los extremos de las lecturas como máxima para garantizar que los fragmentos ensamblados no sean producto de posibles coincidencias dadas por el azar. Sin embargo, se enfatiza en que los fragmentos ensamblados deben tener sentido en la región del genoma original. Los mismos autores entonces nos conducen a la consideración que si las lecturas concatenadas corresponden a regiones adyacentes en el genoma original entonces, este procedimiento se puede considerar como verdadero, pero si por el contrario si existen dos o más regiones en el genoma donde existiesen sitios potenciales de ubicar las lecturas, no siempre este proceso de concatenación concordaría con las regiones genómicas originales debido a la dificultad que plantearía la ubicación correcta de regiones duplicadas y en caso mas extremo al ensamblaje de regiones repetitivas (Henson et al., 2012).

El problema planteado anteriormente está vinculado con la complejidad misma de los genomas y el proceso de su dinámica evolutiva. Se puede pensar que ensamblar correctamente el genoma de una especie depende de su complejidad, la cual es el producto derivado del transcurso del tiempo y que conlleva a una estructura genómica compleja. Estas características se pueden observar cuando se analizan genomas actuales y se encuentran duplicaciones de fragmentos, rearreglos de regiones, entre otras características de alta complejidad. Entonces, la siguiente consideración de Henson et al., (2012) nos confirma que el proceso del ensamblaje del genoma es mucho más complicado de lo que podemos suponer, por ejemplo, si en un borrador de un genoma se tuviese que la secuencia X está concatenada como A, X y B y en otra región del mismo genoma ésta está concatenada como C, X y D no se podría descartar por ejemplo que la concatenación A, X y D también existiera debido a que no siempre el sobrelapamiento de los extremos puede resolver el problema de ensamblar las regiones repetitivas. Es por esta razón que los autores sugieren que los ensambles de los genomas deberían finalizar en los extremos de las vecindades donde residen repeticiones y utilizar otras aproximaciones para resolver el ensamblaje de estas regiones complejas.

Los autores de los primeros ensambladores de genomas de gran complejidad como el del humano o el de la mosca de la fruta tuvieron que enfrentarse al problema de diseñar las estrategias de cómputo para manejar la posible complejidad genómica. Los ensambladores genómicos fueron diseñados para lograr atacar al máximo los conflictos originados por múltiples sobrelapamientos entre lecturas. Dentro de los primeros ensambladores se tenían aquellos utilizados para la construcción de mapas físicos por medio de la identificación de huellas derivadas de los fragmentos de restricción en los clones para luego sobreponer aquellos con mayor similitud.

Una explicación matemática de las aproximaciones de la época puede consultarse en Lander y Waterman (1988) y su extensión para el ensamblaje de clones utilizando anclas en Arratia et al., (1991).

EL PRIMER BORRADOR DEL GENOMA HUMANO

Después de las iniciativas lideradas por el DOE y otros investigadores, desde 1984 hasta 1986 (Sinsheimer, 1985; Palca, 1986), finalmente fue publicado en simultáneo en el 2001 el primer borrador del genoma humano y el primer mapa físico del genoma humano por The International Human Genome Sequencing Consortium (2001), (IHGSC, 2001). El consorcio internacional estaba formado por 20 grupos de diferentes países entre ellos Estados Unidos, Inglaterra, Japón, Francia, Alemania y China.

Desde 1997, parte de la estrategia mencionada anteriormente para secuenciar genomas, (es decir fragmentar el genoma humano en pedazos más pequeños para su posterior clonación), ya se había publicado. Este método y su estrategia se conoce en inglés como “Human Whole-Genome Shotgun Sequencing” (Weber y Myers, 1997). En esta misma publicación los autores plantearon que se requería gran cantidad de poder de computo para realizar el análisis del secuenciamiento. Adicionalmente indicaron que un cluster de computo conformado por estaciones de trabajo que procesaran un millón de instrucciones por segundo, permitiría obtener el genoma ensamblado en 300 días, tiempo que podría disminuirse, si los algoritmos utilizados eran más rápidos y por su puesto si la capacidad de computo se mejoraba.

El genoma humano fue inicialmente ensamblado utilizando el algoritmo implementado en el programa GigAssembler diseñado por Kent y Haussler (2001) y el algoritmo diseñado para el ensamblaje de clones implementado por Lander y Waterman (1988) y Arratia et al. (1991). Sin embargo, aunque se logró un primer borrador de ensamblaje usando estos métodos, los autores reconocieron las debilidades de ambos algoritmos para resolver problemas asociados al ensamblado de regiones genómicas de alta complejidad producto de duplicaciones y regiones repetitivas teloméricas y subteloméricas (IHGSC, 2001). Parte de los retos que se debían resolver posteriormente para completar en su totalidad la secuencia del genoma humano fue llenar los huecos o gaps que se formaron en el primer ensamble del genoma.

Un proceso adicional al problema del ensamblaje de un genoma es poder determinar la cobertura, es decir el número de veces que una base ha sido secuenciada y que tiene sentido o que puede considerarse como la base o nucleótido que corresponde realmente a esa posición en el genoma original. En este caso, los autores utilizaron la herramienta BLAST para determinar el grado de cobertura del genoma humano. Para ello compararon las lecturas originales usadas para ensamblar el genoma humano y las secuencias disponibles en el GenBank.

Adicionalmente los datos disponibles de cDNAs de la base RefSeq (Pruit y Maglott, 2001) fueron alineadas al borrador del genoma humano encontrando que el 88 % de las bases de los cDNAs podían ser alineadas al genoma con un porcentaje de identidad del 98 % (IHGSC, 2001).

De esta forma los autores reportaron que en este primer borrador el 88 % del genoma humano estaba representado, y que con la combinación de datos publicados de secuencias su estimativo incrementaba a un 94 %. Estos valores concordaron con los porcentajes para huecos o gaps en los cuales residiría la demás porción del genoma.

Otro de los objetivos de los gestores del proyecto era hacer visible la información obtenida del genoma humano a la humanidad. Una de las herramientas más interesantes diseñadas para visualizar con mucho detalle los genomas (aun disponibles hoy en día y de amplio uso en el campo de la bioinformática) son los navegadores genómicos conocidos en inglés como los Genome Browsers. En la misma publicación (IHGSC, 2001) los autores visualizaron la información del genoma humano en este tipo de plataformas que a la fecha han evolucionado a plataformas computacionales que usan sofisticados manejos de bases de datos de tipo relacional para la integración de la información genómica comparativa y evolutiva entre genomas de diferentes especies. Los dos grandes navegadores genómicos utilizados para observar con detalle el genoma humano fueron el UCSC Genome Browser y el EnsEMBL, en constante mantenimiento y curación por la Universidad de California Santa Cruz (Kent et al., 2002) y el Instituto de Bioinformática Europeo y el Centro Sanger (Hubbard et al., 2002) respectivamente.

Ahora bien, como se ha mencionado anteriormente, el problema de las repeticiones incrementaba la complejidad de ensamblar los genomas, entonces, se diseñó un programa que permite la predicción de elementos repetitivos como prueba en el ensamblaje llamado Repeatmasker (Smith et al., 1996), el cual se apoya en la base de datos de elementos repetitivos identificados experimentalmente principalmente y curada por el Genetic Information Research Institute (GIRI) (Jurka, 1998; Jurka, 2000; Jurka et al., 2005).

Además, se construyó el primer índice de genes utilizando los resultados de diferentes aproximaciones de cómputo que alinearon datos de ESTs, mRNAs, cDNAs a secuencias del ADN genómico ensamblado, así como de alineamientos de secuencias previamente reportadas de proteínas. (Birney et al., 1996; Gelfand et al., 1996; Mott, 1997; Bailey et al., 1998; Florea et al., 1998). Por último, los autores utilizaron modelos ab initio para la predicción de genes basados en los modelos ocultos de Markov (HMM) implementados en programas como GenScan (Burge y Karlin, 1997), Genie (Kulp et al., 1996; Reese et al., 2000) y Fgenes (Solovyev y Salamov, 1997). Generalmente estos programas utilizaron la información depositada de las bases de datos como EnsEMBL, RefSeq y PFAM, SWISSPROT y TrEMBL como parte del proceso para la construcción de información requerida.

En este primer borrador del genoma humano los autores propusieron construir un índice de genes y un índice de proteínas. El índice de genes construido indicó un total de 24500 genes para esta primera versión del genoma humano (IHGSC, 2001). Así mismo en esta misma época fue presentada la estrategia computacional utilizada para el ensamble del genoma de la mosca de la fruta y conocido como el ensamblador de Celera cuyo diseño algorítmico puede consultarse en Myers et al. (2000).

LAS NUEVAS TECNOLOGÍAS DE SECUENCIAMIENTO Y SU IMPACTO EN EL ESTUDIO DEL GENOMA HUMANO A GRAN ESCALA

El proyecto genoma humano ha sido comparado por algunos autores como un proyecto de tanto impacto y de retos para la humanidad como lo fue en su tiempo el proyecto de viajar a la luna. De acuerdo con el NHGRI, 2016 tras una inversión cercana a los 2.700 millones de dolares, los costos requeridos y la necesidad de infraestructura para amplificar a una escala mayor el secuenciamiento de más genomas, conllevó a enfrentar a los investigadores a nuevos retos computacionales y experimentales y a la idea de llevar a cabo un desarrollo automatizado masivo que permitiera identificar variantes genómicas derivadas del análisis genómico con posibles aplicaciones en la medicina personalizada.

Sin embargo, los costos invertidos en el secuenciamiento del primer borrador del genoma humano, plantearon la necesidad de utilizar métodos de secuenciamiento mucho más económicos y eficientes. Esto condujo al desarrollo de lo que se conoce hoy en día como tecnologías de secuenciamiento de nueva generación. Para una revisión más detalla de su desarrollo en comparación con procedimientos computacionales y otras aplicaciones se puede consultar a Zhang et al. (2011) y Henson et al. (2012), y Bermudez-Santana (2011) respectivamente. Los nuevos métodos de secuenciamiento incrementaron la cobertura, basaron sus métodos de amplificación en otras estrategias sin usar amplificación por clones biológicos y disminuyeron dramáticamente los costos de secuenciamiento.

Pero por otro lado, los tamaños de las lecturas producto de este nuevo secuenciamiento disminuyeron en comparación con las obtenidas por los métodos de secuenciamiento de Sanger (1975) y Sanger et al. (1977), es decir de una longitud cercana a los 1000 pares de bases máximas obtenidas por el secuenciamiento de Sanger, se pasó a una longitud que variaba entre los 35 y 500 pares de bases dependiendo de la tecnología. Entonces ahora, los problemas de ensamblaje de lecturas se centraron en la búsqueda de sobrelapamiento de lecturas de menor tamaño y en la búsqueda de estrategias de almacenamiento y de procesamiento de información producto del alto volumen de datos de las nuevas metodologías de secuenciamiento que puede superar las gigas en cantidad de información para un experimento.

Dentro de las primeras tecnologías, la primera técnica de segunda generación introducida en el mercado en 2005 se conoció como 454 (Gilles et al., 2011) cuyo tamaño de lecturas era cercano a 600 pares de bases (actualmente esta tecnología se encuentra fuera de uso comercial). Con esta tecnología fue posible el secuenciamiento del segundo genoma humano perteneciente a James Watson (Wheeler et al., 2008 en Zhang et al., 2011). Posteriormente en el 2007 se lanzó al mercado Illumina con productos de tamaño de lecturas hoy en día cercano a los 100 pares de bases y cuya metodología fue utilizada para el resecuenciamiento del genoma humano en el 2008 (Bentley et al., 2008).

Otro método comercializado por Life Technologies (CA, USA), SOLiD de Life Technologies: Applied Biosystems ha sido también utilizado dentro de este marco de secuenciadores de segunda generación y por primera vez usado en el estudio del posicionamiento de nucleosomas (Valouev et al., 2008).

Para una revisión del tema de secuenciadores de segunda generación consulte a (Metzker, 2010).

Posteriormente surgieron los métodos de tercera generación que se basan en el secuenciamiento directo de ADN o conocido como secuenciamiento en tiempo real de cadena única (en inglés single-molecule real-time (SMRT) sequencing) (Benjamin et al., 2010) comercializado por Pacific Biosciences–y los métodos comercializados por Life Technologies: Ion Torrent (Rusk, 2011). Estas tecnologías pueden producir un tamaño final de lecturas en promedio cercano a 14000 pares de bases y 200 pares de bases, respectivamente. Los métodos de cuarta generación en proceso de desarrollo y comercialización se basan en la tecnología del Nanoporo que promete tener aplicaciones en la medicina personalizada, por ejemplo en Mikheyev (2014) puede consultarse una de sus aplicaciones en otras áreas de la ciencia.

Aunque las nuevas tecnologías incrementaron la eficiencia y disminuyeron los costos, por ejemplo del costo de secuenciamiento del primer genoma humano de 2.700 millones de dólares americanos se pasó a un costo cercano a los 5.000 dólares, los nuevos tamaños de lecturas no permitían continuar con las aproximaciones utilizadas de ensamblaje tradicionales. Henson et al. (2012) enfatizan que la extensión de concatenación de lecturas y el posible sobrelapamiento múltiple con más regiones se podría incrementar conllevando a una mayor cantidad de gaps en los genomas ensamblados. Problemas similares fueron resaltados por (Wold y Myers, 2008).

Para el caso particular de genoma humano, incluso extensible a genomas ya ensamblados, el proceso general reportado para el ensamblaje utilizando productos de secuenciamiento de última generación es en primer lugar el mapeo o alineamiento de lecturas al genoma humano de referencia (Zhang et al., 2011) o proceso conocido como mapeo para genomas re-sequenciados. Este tipo de pasos para ensamblar genomas utilizando genomas previamente secuenciados difiere en procedimiento de los pasos utilizados en el ensamblaje de novo, procedimiento que se fundamentó orginalmente en los principios de los grafos de Bruijn (Pevzner et al. 2011).

Para una mejor documentación sobre pasos a tener en cuenta en este tipo de ensamblaje se puede consultar a Baker (2012). A diferencia del ensamble de de novo, en el ensamble con genoma de referencia se debe mapear con alta confiabilidad las pequeñas lecturas al genoma de referencia, millones de lecturas cortas deben ser mapeadas al genoma de referencia que para el caso del humano, correspondería a las versiones secuenciadas del genoma humano.

Sin embargo para lograr con gran efectividad el mapeo, el genoma humano es comprimido en un conjunto de índices y se usan estructuras de datos conocidas como árboles de sufijos que facilitan no solo la compresión de cadenas de larga magnitud que corresponden a cada cromosoma sino el proceso de búsqueda eficiente de coincidencias de los millones de lecturas obtenidas de un experimento de secuenciamiento de última generación en el genoma de referencia, una explicación matemática detallada puede consultarse en Grossi y Vitter (2005).

Dentro de las diferentes aplicaciones de mapeo más utilizadas se encuentran MAQ (Mapping and Assembly with Quality) desarrollada por Li et al. (2008, 2009), Bowtie por Langmead et al. (2009), Segemehl por Hoffman et al. (2009) y SOAP por Li et al. (2008); entre otras aplicaciones disponibles que pueden ser consultadas en Zhang et al. (2011). Por otro lado, Magi et al. (2015) indican que una vez el proceso de mapeado finaliza, una de las estrategias siguientes es identificar el conjunto de lecturas que representan estadísticamente variaciones con relación al genoma de referencia. Con estas estrategias es posible identificar lo que se conoce como variantes de nucleótido sencillas. Para ello se utilizan herramientas flexibles que almacenan de forma genérica los alineamientos resultantes de mapeo, estas herramientas pueden almacenar resultados de mapeo realizado por diferentes estrategias. Un ejemplo de éstas es SAM-Tools desarrollado por Li et al. (2009) que ha sido utilizada en el proyecto de secuenciamiento de los 1000 genomas humanos (The 1000 Genomes Project Consortium, 2010). Otra herramienta disponible es GATK desarrollada por McKenna et al. (2010). Para una revisión de métodos utilizados para la identificación de variantes se puede consultar a Medvedev et al. (2009) y Pirooznia et al. (2014).

FUTURO Y PERSPECTIVAS DE LA GENÓMICA PERSONALIZADA

Una de las preguntas derivadas del éxito del secuenciamiento del genoma humano podría plantearse en relación con su posible uso para el diagnóstico de enfermedades, es decir, ¿Tendrá la genómica un impacto en la práctica médica y por consiguiente, también en la salud humana? Con los cambios en los precios del secuenciamiento del genoma humano, que han disminuido dramáticamente en los últimos años (se ha llegado a pronosticar un valor de 1000 dólares americanos por genoma) la idea de poder vernos más en detalle no es tan lejana y cada vez está al alcance del soporte al diagnóstico médico. Pero a la vez, la posibilidad de conocer la secuencia del genoma de un paciente genera problemática desde el punto de vista ético y logístico, especialmente cuando se desee integrar la información genómica y su posible uso para el desarrollo de un fármaco o cuando se requiera planificar un esquema de combinación de fármacos dirigido a pacientes interesados en enfoques de la medicina personalizada. Pero por otro lado, aun no se ha evaluado las implicaciones que en salud pública tengan los efectos de preexistencias detectadas por el análisis genómico para alcanzar una trabajo o una afiliación a los sistemas de salud.

Offit (2011) enfatiza que en el caso de la medicina personalizada por ejemplo, la genómica personalizada construye los principios para la integración de la genética dentro de la práctica médica. Sin embargo, Offit (2011) también recuerda que mecanismos epigenéticos deberán ser incorporados al modelo genómico de estudio de la enfermedad humana, para lograr entender la enfermedad como un modelo genético multifactorial que involucra el ambiente asi como otros modificadores genéticos. Desde el punto de vista de la farmacología, la posible optimización de la terapia podría lograrse por el uso de información obtenida de los estudios genómicos, sin dejar atrás la importancia de evaluar la complejidad del actuar de muchos medicamentos.

Autores como Sadee y Dai (2005) mencionan que el éxito del descubrimiento de nuevos fármacos derivados de los estudios genómicos o de estudios farmacogenómicos deberían tener en cuenta los múltiples procesos que involucran la respuesta de los pacientes a fármacos y sus combinaciones, si es así, ahora la bioinformática tendrá nuevos retos para el manejo masivo de datos de las historias clínicas nutridas con la información genómica y requerirá el uso de la informática aplicada para conectar los posibles resultados obtenidos de estudios de polimorfismo de genes, del análisis cuantitativo de factores genéticos así como de la evaluación de los fenómenos epigenéticos. Todos estos en conjunto requerirán por supuesto estar conectados con las respuestas a nivel proteómico y metabolómico. Por tanto, el descubrimiento de nuevos fármacos asi como su posible uso comercial dependerá de la construcción de protocolos para la extrapolación de sus posibles beneficios asi como de La necesidad de construir un estructura jurídica que proteja la confidencialidad de los pacientes. Guttmacher et al. (2010) enfatizan que para utilizar de forma apropiada y efectiva la información genómica derivada de un individuo se debe poseer de una infraestructura científica, logística y ética. La pregunta actual es si estamos preparados o si estamos construyendo una infraestructura para ello. En este sentido seis reglas principales se deben seguir para construir una agenda en salud pública que involucre la genómica como apoyo al diagnóstico médico que pueden ser consultadas en Burke et al. (2012). Sin embargo debido a la complejidad bio-sico-social de muchas enfermedades, las políticas de salud pública se verán enfrentadas con retos de alta complejidad como lo indica McBride et al. (2008).

Aunque se mantienen igualmente muchos debates éticos alrededor del tema de la genómica personalizada y su posible impacto en la medicina personalizada muchos investigadores, entre ellos Harol Elliot Varmus (premio Nobel de medicina y fisiología en 1989), indican que la genómica es tan sólo un modo de hacer ciencia y no medicina. Entonces de sus palabras podríamos pensar que a los protocolos existentes en medicina tan sólo se les debe incorporar la información genómica como una información complementaría similar a los resultados de laboratorio convencionales. Al respecto el debate continuará en los próximos años.