cap. 2 alineamiento

 

TEORÍA DE LA INFORMACIÓN EN EL ANÁLISIS DE SECUENCIAS BIOLÓGICAS

INTRODUCCIÓN

La aplicación de la teoría de la información al análisis de secuencias de DNA o RNA comenzó aproximadamente en la década de 1970; dos grandes períodos pueden ser distinguidos en este proceso; el primero de 1970 a 1977 (aproximadamente) cuando aparece la primera publicación sobre el tema, se desarrollan métodos para la estimación de parámetros tales como la información, la redundancia y la divergencia entre las secuencias de DNA. El objetivo de estos estudios era obtener una expresión cuantitativa que describiera la complejidad de las secuencias.

El segundo período de 1987 al presente (existió un receso en el estudio) después de unos años de pausa, se caracteriza por un renovado interes en la materia como objeto de investigación, esto se debe en parte a los éxitos de los proyectos de secuenciamiento de genomas.

ENTROPIA Vs CONTENIDO INFORMACIONAL

La entropia de la información de una secuencia de ADN se puede describir como el número mínimo de instrucciones que se neceistan para escribir completamente un mensaje; ésta definición utiliza la idea que maneja el algorítmo para obtener la entropía de Kolmogorov-Chaitin (Yockey, 1992).

Por ejemplo si tenemos la secuencia CGCGCGCGCGCGCGCGCGCG, la podemos representar con la instrucción:

  • CG repetido 10 veces.

Esta secuencia tiene una entropia informacional muy baja y por consiguiente un contenido informacional bajo.

Con la presencia de tan solo una mutación en la secuencia anterior se incrementa la complejidad de la secuencia y por ende el contenido informacional (ya que aumenta la entropia informacional porque se necesitan más instrucciones para escribir la secuencia anterior) , si cambiamos la G de la sexta posición por una T obtenemos: CGCGCTCGCGCGCGCGCGCG; para representar esta secuencia necesitamos las siguientes instrucciones:

  • CG 2 veces.
  • CT 1 vez.
  • CG 7 veces.

Si ahora duplicamos la secuencia sin mutaciones:

CGCGCGCGCGCGCGCGCGCGCGCGCGCGCGCGCGCGCGCG

el contenido informacional no se incrementa, solo presenciamos un incremento en el número de repeticiones de nucleótidos en la cadena . La instrucción se modifica de GC repetido 10 veces a GC repetido 20 veces.

Pero si duplicamos la secuencia que contiene la mutación:

CGCGCTCGCGCGCGCGCGCGCGCGCTCGCGCGCGCGCGCG

estas son las instrucciones que la representan:

  • CG 2 veces.
  • CT 1 vez.
  • CG 9 veces.
  • CT 1 vez.
  • CG 7 veces.

Vemos que el número de instrucciones se ha incrementado de 3 a 5, de aquí podemos inferir que la duplicación de una cadena de DNA ( compuesta de más de una repetición de nucleótidos ) significa un incremento global en la complejidad del mensaje.

REPRENTACIÓN INFORMACIONAL

 



Universidad Nacional de Colombia
Carrera 30 No 45-03 - Edificio 477
Bogotá D.C. - Colombia
PBX: 3165000
webmaster@unal.edu.co

Aviso Legal - Copyright
Gobierno en LíneaAgencia de Noticias UN