Las ómicas y la generación masiva
de datos biológicos


Las ómicas y la generación masiva
de datos biológicos
      Autores

El genoma de un organismo es la cantidad total del material genético que contiene cada una de sus células, el cual se encuentra en la molécula del ADN organizado en las estructuras moleculares llamadas cromosomas. El genoma contiene una enorme cantidad de información ordenada en una secuencia extremadamente larga, de cuatro componentes básicos: adenina, guanina, citosina y timina. Por ejemplo —y para darnos una idea de la cantidad de información que puede contener—, la secuencia completa de los componentes del ADN del ratón doméstico, una de las primeras especies de la cual se conoció la información contenida, equivale a 2,8 GB (1 GB = 1,000,000,000 bytes), algo equivalente a escribir 11 veces una enciclopedia de 32 tomos.
     Si físicamente se midiera la longitud del genoma, nos asombraría su tamaño, porque, en el caso del humano, ésta tendría alrededor de dos metros, información que debe ser comprimida hasta caber en un espacio tan reducido como el núcleo de una célula.

El estudio del genoma es importante, porque permite saber, aproximadamente, cuántos genes están presentes en él, cuáles son, cómo están organizados (en qué parte de los cromosomas se encuentran) y cómo se regula su expresión; es decir: de qué manera un gen controla una función en una célula. El desarrollo tecnológico actual permite realizar estudios en estos diferentes niveles, y genera una inmensa cantidad de información, lo que representa un desafío para el estudio y la integración de datos; un enorme reto para la investigación actual de los organismos vivos.
     La finalidad de esta información es conocer el funcionamiento de un organismo, el cual no puede ser entendido por el análisis de un único tipo de información, ya sea un solo gen, una proteína, o un compuesto químico, como se había estudiado hasta hace poco tiempo, porque depende de una regulación en varios niveles. Por tal razón, el estudio de un organismo se aborda, actualmente, desde los niveles mencionados, lo cual genera una gran heterogeneidad de datos que permiten formar redes de asociación entre ellos, para conocer desde la expresión de genes hasta la producción de proteínas encargadas de cada función en la célula, bajo diferentes condiciones de desarrollo o como respuesta a diferentes factores ambientales. Estas diversas áreas de estudio masivo de datos del genoma son conocidas como ómicas.
     Ómica es un término nuevo en el campo de la ciencia que, en biología molecular, se utiliza como sufijo derivado del griego oma, que indica ‘conjunto’ o ‘masa’, y se refiere al estudio de un conjunto de objetos comunes, como genes, proteínas, o compuestos químicos (metabolitos). Algunas de las principales ómicas son: genómica, transcriptómica, proteómica y metabolómica. A continuación ofrecemos la definición de sus áreas de investigación y la relación entre ellas.

La genómica   

Es el análisis de la secuencia de las bases (adenina, guanina, timina y citosina) que forman la molécula de ADN de un organismo. El estudio de un genoma ha sido posible gracias a la disminución en los costos y un incremento en la velocidad de la tecnología para secuenciar una cadena de ADN. El avance en las herramientas bioinformáticas también ha contribuido a un rápido incremento en la disponibilidad de genomas secuenciados de diferentes organismos.
     El siguiente nivel de estudio para los datos generados de la secuenciación de un nuevo genoma consiste en conocer cuántos genes contiene, cómo están organizados y su posible función, para tener un panorama global de cómo trabaja un genoma. Esta información se puede obtener haciendo comparaciones del genoma nuevo con la información de genomas estudiados previamente, a través de lo que se conoce como búsqueda de similitudes basadas en homologías de secuencias parecidas y, gracias a que la información obtenida de genomas estudiados previamente se deposita en bases de datos públicas; una de las más conocidas es la del Centro Nacional para la Información en Biotecnología (National Center for Biotechnology Information; NCBI), que forma parte de la Biblioteca de la Escuela Nacional de Medicina de los Estados Unidos.
     El proceso de búsqueda de funciones para genes en los nuevos genomas no sólo considera genes que, potencialmente, codifican para proteínas con función enzimática (proteínas que sintetizan o degradan compuestos químicos en la célula) relacionadas con procesos metabólicos, sino también genes productores de proteínas que controlan otras funciones, como transportar moléculas hacia dentro o fuera de la célula, así como proteínas que controlan la expresión de un gen, conocidas como factores de transcripción. Toda esta información en conjunto permite crear modelos de la forma en que una célula controla diversos procesos metabólicos.
     La ubicación en el genoma y la asignación de una función para una secuencia de ADN son conocidas como anotación. Ahora, puesto que la precisión en la anotación de un genoma recién secuenciado depende de la comparación con genomas ya analizados, inconsistencias y anotaciones incorrectas entre genomas podrían generar interpretaciones equivocadas sobre la función de genes en el genoma. Es necesario estandarizar la anotación de los genomas para hacer los datos comparativos y confiables entre diferentes especies. 

Una de las funciones del genoma es la producción de moléculas de ARN (ácido ribonucleico), las cuales son intermediarias durante la expresión genética. Estas moléculas se producen de manera permanente en la célula, pero, su cantidad o tipo pueden variar, dependiendo de momentos específicos de la célula; por ejemplo, del estado de desarrollo del organismo, si éste es sometido a algún compuesto químico o, incluso, a la presencia de algún patógeno. El estudio de todas las moléculas de ARN producidas en esas situaciones particulares nos puede indicar qué tipo de genes se están expresando y están involucrados en esas respuestas.
     La transcriptómica se refiere al estudio de la cantidad total de moléculas de ARN que produce el ADN en un momento específico. Si bien el análisis del genoma nos proporciona información general sobre qué genes contiene y, potencialmente, cómo podrían funcionar en un organismo en particular, no nos dice como éstos controlan un proceso metabólico en un estado de desarrollo concreto; tampoco nos informa cuáles se expresan en diferentes tipos de tejidos, ni en qué condiciones medioambientales o fisiológicas lo hacen. En este sentido es que un transcriptoma apoya el proceso de conocimiento, al darnos este tipo de información; pues, nos indica cuáles genes están funcionando en ese momento y el tipo de proteína que se sintetizará. Estos datos permiten crear modelos predictivos más precisos sobre el tipo de metabolismo que se estimula en condiciones específicas en un tejido y sus mecanismos regulatorios. Estos estudios nos permiten conocer qué genes se expresan en un tejido cuando éste padece cáncer o al aplicar un fármaco.

Las proteínas son los productos finales de la expresión de un gen, y son las que, definitivamente, realizan una función en la célula. 
     La proteómica es el análisis detallado de todas las proteínas producidas en un órgano, tejido o célula, en un momento determinado. Es el estudio de todas estas proteínas lo que provee información complementaria sobre la estructura del genoma, su actividad y también su regulación. Además, la proteómica provee información sobre la forma de regular la función de las proteínas involucradas en el control del desarrollo y cuál podría ser su respuesta ante las condiciones del medio ambiente.
     La síntesis de proteínas y su modificación después de su producción, por ejemplo, debido a la adición de un grupo fosfato, son procesos que regulan la actividad de tales proteínas y, por lo tanto, saber si se modifican y cómo lo hacen después de producidas es importante, pues no siempre es suficiente detectar la presencia de una proteína en una célula para asumir que va a realizar una función específica. El conocimiento de la producción de proteínas bajo diferentes estados fisiológicos o de desarrollo, en diferentes tipos de tejidos, o bajo diferentes tipos de estrés nos permite saber qué tipo de actividad metabólica se activa en tales condiciones, y qué mecanismos de control están involucrados.
     Toda esta información es útil para tratar de entender cómo las células controlan su metabolismo. El estudio proteómico también permite verificar y corregir la asignación de la función de un gen con su correspondiente proteína, y confirmar la presencia de una proteína particular en una condición específica.

El metaboloma representa la colección de todos los productos químicos (metabolitos) en una célula, tejido, órgano u organismo, los cuales se consideran productos finales de un proceso metabólico. El análisis a gran escala de los metabolitos en muestras biológicas ha recibido una atención incrementada en años recientes como un complemento al análisis de la transcripción de genes y la producción de proteínas. El estudio del metaboloma se usa para relacionar la función de los genes en un proceso metabólico. Las propiedades y las funciones de los metabolitos que se produce son ampliamente variables, porque incluyen compuestos químicos de muchas clases, como los aminoácidos, los ácidos grasos, y los carbohidratos.
     Los datos metabolómicos tienen un importante papel en la creación de modelos metabólicos, porque proporcionan un marco real de las actividades bioquímicas de un organismo en condiciones especiales. Además, son importantes para identificar la distribución espacial y temporal de la producción de compuestos químicos bajo condiciones de desarrollo y medioambientales diferentes. La metabolómica, junto con la transcriptómica, hace posible conocer con más precisión qué genes pudieran estar involucrados en el metabolismo especializado de una célula.

Los estudios ómicos son importantes no sólo por la gran cantidad de información que generan, sino por ser herramientas que pueden tener una utilidad práctica en algunas áreas de interés para el humano. La genómica, por ejemplo, proporciona nuevas herramientas a la práctica médica para obtener con más precisión el diagnóstico en pacientes con enfermedades poco comunes, mal diagnosticadas o que requieren diagnóstico temprano. Algunos ejemplos de su aplicación son los siguientes:

  • Cáncer. En el caso de esta enfermedad, los investigadores han desarrollado un proceso para analizar muestras de pacientes con un panel de más de 500 mutaciones genéticas implicadas en cáncer, con el fin de generar diagnósticos más precisos y planes de tratamiento de los pacientes.
  • Enfermedades infecciosas. La genómica puede validar el uso de la secuenciación de nueva generación para detectar patógenos difíciles de encontrar con técnicas de búsqueda tradicionales, en pacientes con encefalitis, meningitis, sepsis o neumonía.
  • Epilepsia. La ómica se ha usado en el descubrimiento de genes nuevos nunca antes asociados con esta enfermedad, entre ellos, uno involucrado en enfermedad cardiaca, lo que ha conducido al desarrollo de drogas para su tratamiento.
  • De la misma manera la transcriptómica permite, en el caso del cáncer, clasificar de forma más precisa los diferentes subtipos de tumores, predecir la progresión clínica de éstos y buscar opciones de tratamiento.

     La proteómica también desempeña un papel muy importante en la investigación médica; por ejemplo, en la búsqueda de nuevas drogas y en el diagnóstico de enfermedades, porque existe una estrecha relación entre proteínas, genes y enfermedades. Conocer la función de una proteína nos ayuda a entender una enfermedad; además, muchas drogas actúan uniéndose a proteínas. Además, la identificación de cuáles de ellas se expresan durante una enfermedad específica es importante para determinar los tratamientos apropiados.

Las tecnologías ómicas como la transcriptómica, la proteómica y la metabolómica han generado interés en la agronomía, porque abre nuevas perspectivas en el estudio del mejoramiento en la productividad de muchas plantas; algunas de ellas en las que se ha aplicado las ómicas son: frijol, lenteja, frijol soya, cacahuate y chícharo, las cuales forman parte de las leguminosas, el tercer grupo más grande de plantas superiores con, aproximadamente, 20,000 especies, lo que ha tenido  un alto impacto en la agricultura y en la producción de aceite vegetal. La investigación en estas plantas ha avanzado a partir de su genoma, para entender sus mecanismos de adaptación a diferentes condiciones —además de conocer su variación genética—. Actualmente, contamos con la secuencia completa del genoma del frijol soya (Glycine max) y de la alfalfa (Medicago truncatula), entre otras especies vegetales, lo cual ha generado grandes cantidades de datos que ayudarán a identificar genes asociados a su productividad y a su adaptación a diferentes tipos de estrés. De manera particular, estas plantas están sujetas a estrés por las altas cantidades de sales en el suelo que disminuyen severamente su desarrollo y su productividad; por ello, la producción de cultivares tolerantes a suelos con altos niveles de salinidad permitiría utilizar este tipo de suelos para producir más alimentos. Los estudios ómicos han hecho importantes descubrimientos de genes relacionados con la tolerancia a la salinidad. No obstante, la información obtenida por las herramientas ómicas necesita ser integrada para ampliar la cobertura en la generación de plantas con características que se reflejen en una mejor productividad.

Las ómicas son herramientas de análisis que permiten obtener grandes cantidades de información sobre un organismo en diferentes niveles, comenzando con la forma en que está organizado su genoma, hasta el tipo de metabolitos que produce en condiciones particulares. Desde el punto de vista médico, esta información puede ser utilizada para un diagnóstico más preciso de enfermedades y buscar mejores alternativas para su tratamiento. Además, su aplicación en la agricultura permitirá mejorar la producción de cultivos de importancia económica.

  • Brautigam, A., y V. Gowik (2010). “What Can Next Generation Sequencing Do for You? Next Generation Sequencing as a Valuable Tool in Plant Research”. Plant Biol. 12:831-841.Canovas, F., E. Dumas-Gaudot, G. Recorbet, J. Joroin, H. P. Mock, M. Rossignol (2004). “Plant Proteome Analysis”. Proteomics. 4:285-298.
  • Gupta S, N. Nadarajan, D. Sen Gupta (2013). Legumes in omic era: retrospect and prospects. Nueva York, Springer, 339 pp.
  • http://precisionmedicine.ucsf.edu/content/omics-medicine
  • Ma S, C. C. Funk, N. Price (2010). “Systems Approaches to Molecular Cancer Diagnostics”. Discovery Medicine 10:531-542.
  • Simonian M. (2016). “Proteomics in Medicine”. J Data Mining Genomics Proteomics. 7:e126.
Ernesto García Pineda

Es Doctor en Ciencias, en Biotecnología de Plantas, por el Departamento de Ingeniería Genética, Cinvestav-IPN, Unidad Irapuato. Actualmente es Profesor-Investigador titular en el Instituto de Investigaciones Químico Biológicas, de la UMSNH. Su área de investigación versa sobre mecanismos de defensa en plantas. Es autor de diversos artículos publicados en revistas nacionales e internacionales.
C. e.: egapineda04@gmail.com

Elda Castro Mercado

Es Maestra en Ciencias, en Biología Experimental, por el Instituto de Investigaciones Químico Biológicas de la Universidad Michoacana de San Nicolás de Hidalgo. Ha presentado sus trabajos de investigación en congresos nacionales e internacionales, y ha publicado artículos en revistas nacionales e internacionales.

Av. Insurgentes Sur 1582, Col. Crédito Constructor • Del. Benito Juárez C.P.: 03940, México, D.F. Tel: (55) 5322-7700
Comentarios, sugerencias y dudas sobre este sitio de internet y sus sistemas:
Centro de Contacto y Soporte Técnico  

DERECHOS RESERVADOS © 2014
Políticas de Privacidad