INTRO


Glosario Abreviaturas de uso más frecuente en bioinformática

Este sitio ha sido creado con el objetivo de fomentar el aprendizaje y desarrollo de la bioinformática; así como dar a conocer las actividades que, en este contexto, se llevan a cabo en la Facultad de Biología de la Universidad de La Habana. Si tiene alguna sugerencia o comentario, o desea participar en este proyecto, no dude en contactarnos.

Explosión de información biológica

Tras varias décadas de trabajo en el campo de la biología molecular y grandes progresos en los diferentes proyectos de secuenciación de genomas, se ha producido un crecimiento explosivo en el volumen de la información biológica generada por la comunidad científica, sobre todo en la forma de secuencias de ácidos nucleicos y proteínas. Este dramático crecimiento ha exigido, por un lado, la creación de bases de datos especializadas para almacenar y organizar la información y, por otro lado, el desarrollo de herramientas computacionales para ver, estudiar y analizar a fondo estos datos y así poder extraer conocimiento con sentido biológico a partir de ellos.

Bases de datos biológicas

Una base de datos biológica es un volumen grande y consistente de datos, generalmente persistente; asociado a herramientas computacionales diseñadas para actualizar, consultar y devolver una parte o la totalidad de tales datos.

Una base de datos simple puede ser un fichero de texto que contiene varias entradas delimitadas por un formato específico. Por ejemplo, una entrada o registro en una base de datos de secuencias nucleotídicas puede incluir, además de la secuencia como tal, información acerca del organismo a partir del cual esta fue aislada, del tipo de molécula y del grupo de investigación que obtuvo la secuencia, así como las citas a el(los) artículo(s) en que se publicó la investigación original que demandó la obtención de esa secuencia.

Para un buen aprovechamiento de las bases de datos biológicas, las mismas deben cumplir dos requerimientos básicos: (1) la información debe ser fácilmente accesible y (2) debe estar implementado un método que permita extraer sólo la información requerida para responder una pregunta biológica específica.

En el ámbito biológico las bases de datos suelen clasificarse en primarias o secundarias. Las bases de datos primarias son aquellas que almacenan secuencias de ácidos nucleicos y proteínas, estructuras de biomoléculas y perfiles de expresión génica. Las bases de datos secundarias almacenan información derivada de las bases de datos primarias, o sea, el resultado de la aplicación de diversas técnicas analíticas sobre estas fuentes primarias de datos. Los motivos y patrones de secuencia o los marcadores génicos asociados a enfermedades son algunos ejemplos de los tipos de datos almacenados en bases de datos secundarias. Un grupo especial de bases de datos son las que almacenan información relativa a la literatura, conocidas como bibliográficas. Uno de los retos actuales de los investigadores que trabajan en este campo es la búsqueda de métodos para extraer, de forma automática, conocimiento biológico concreto a partir de este último tipo de bases de datos, que abarca un volumen incalculable de conocimiento acumulado durante décadas.

Sistemas de integración de la información biológica

Más allá de la creación de bases de datos individuales, hoy están disponibles sistemas que permiten consultar simultáneamente múltiples bases de datos. Estos recursos no sólo permiten acceder a las secuencias de interés y a la información básica acerca de ellas, sino que en una sola búsqueda se puede recopilar información relacionada, probablemente disponible en otras bases de datos, como información taxonómica del organismo a partir del cual fueron extraídas las secuencias; características de la estructura tridimensional en el caso de las proteínas o información acerca de los genes específicos, como la posición en el genoma del organismo en cuestión o su posible asociación con patología humanas. Así, muchas de las bases de datos del Centro Nacional de Información Biotecnológica (NCBI) en Bethesda, EUA, están enlazadas por un recurso único de búsqueda conocido como Entrez. El SRS del Instituto Europeo de Bioinformática (EBI), otro de los sistema de búsqueda más utilizados, permite consultar simultáneamente una gran cantidad de bases de datos creadas por grupos diferentes a todo lo largo de mundo.

¿Qué es la bioinformática?

La bioinformática es la rama de la ciencia en la cual la biología, las ciencias de la computación y las tecnologías de la información se mezclan para formar una sola disciplina. La meta de esta disciplina científica es permitir el descubrimiento de nuevas ideas, así como ofrecer una perspectiva global a partir de la cual se puedan discernir nuevos principios y paradigmas.

En los comienzos de la revolución genómica, la bioinfomática se restringía prácticamente a la creación y mantenimiento de bases de datos para almacenar información biológica, generalmente en la forma de secuencias nucleotídicas y aminoacídicas. El desarrollo de este tipo de bases de datos implicaba, también, el diseño de interfaces complejas que permitieran no sólo el acceso a la información, sino la adición de nuevos datos y la revisión y actualización de los ya existentes. El desarrollo de nuevas vías para el manejo y gestión de la información biológica sigue siendo un objetivo fundamental de la bioinformática; sin embargo, el objetivo prioritario actual es el desarrollo de herramientas computacionales que permitan el análisis e interpretación de este gran volumen de información. Objetivo que se cumplimenta con la creación o perfeccionamiento de procedimientos matemáticos y estadísticos que permiten relacionar los diferentes tipos de datos disponibles. Por ejemplo: métodos para localizar genes en secuencias nucleotídicas, predecir características estructurales y/o funcionales de las proteínas a partir de su secuencia aminoacídica o agrupar las secuencias aminoacídicas en familias de proteínas relacionadas.

En la bioinformática se han incluido y unificado diversas ramas de la biología en las que los investigadores han trabajado durante varios años, tales como: el estudio de la estructura tridimensional de las biomoléculas, el establecimiento de inferencias evolutivas a partir de secuencias nucleotídicas y aminoacídicas, como parte de la filogenética; o el estudio de la implicación de diferentes alelos en procesos patológicos, conocido como estudio de asociación. Todas estas ramas tienen un punto en común: el uso ineludible de herramientas computacionales y por eso, durante muchos años se agruparon bajo la denominación general de biología computacional. Hoy, los límites entre bioinformática y biología computacional no están claros, este último término se aplica preferiblemente a la obtención de conocimiento con sentido biológico a partir de los datos (no necesariamente a nivel molecular), más que a la búsqueda de nuevas vías para el manejo y gestión de estos.

La nueva era de la biología de los sistemas

La biología ha evolucionado de un enfoque meramente descriptivo, en sus inicios, a un enfoque dinámico basado en evidencias obtenidas en el laboratorio. En los albores del presente siglo, gracias al desarrollo alcanzado en el campo de la bioinformática, la biología está transformándose paulatinamente, además, en una ciencia de información.

Más allá de definiciones y conceptos formales, lo realmente importante en el momento actual es lograr la integración de la información, que puede obtenerse por muchas vías diferentes, para formar un cuadro completo de la actividad en la célula y así poder estudiar su comportamiento fisiológico y las posibles alteraciones en procesos no fisiológicos o patológicos. La meta de los investigadores del presente siglo implica el análisis e interpretación de los datos de muy diversa naturaleza, de los que disponemos o dispondremos en un futuro inmediato; así como la obtención de modelos computacionales para los procesos biológicos, que se acerquen cada vez más al comportamiento real. Todo esto insertado en una disciplina general conocida como biología de los sistemas, que es el producto combinado de disciplinas integradoras a los diferentes niveles de organización biológica, tales como la genómica, proteómica, transcriptómica, metabolómica y fisiómica.

El lado computacional

A pesar de que se puede hacer bioinformática en cualquier estación de trabajo, muchas veces es necesario hacer uso del procesamiento paralelo, debido a la complejidad de las operaciones y cálculos. El procesamiento paralelo implica varias computadoras que funcionan, acopladas entre sí en clusters, como si se tratara de una sola estación de trabajo. En cuanto al software, el sistema operativo que se ha usado como plataforma para el desarrollo de la bioinformática es Linux; por el excelente rendimiento en el procesamiento de datos nativos, por el aprovechamiento óptimo de los recursos de hardware y sobre todo, por ser distribuido en forma gratuita bajo la filosofía de código abierto. Varios investigadores concuerdan en que alguien que piense dedicarse a la bioinformática debe dominar a fondo: (1) el sistema operativo Linux, (2) un lenguaje de compilador, preferiblemente C que es el que mejor se integra con Linux y (3) un lenguaje de intérprete como Perl, que permite escribir rápidamente guiones y es fácilmente extensible.