TEORÍA DE LA INFORMACIÓN EN EL ANÁLISIS DE SECUENCIAS BIOLÓGICAS
INTRODUCCIÓN
La aplicación de la teoría de la información al análisis de secuencias de DNA o RNA comenzó aproximadamente en la década de 1970; dos grandes períodos pueden ser distinguidos en este proceso; el primero de 1970 a 1977 (aproximadamente) cuando aparece la primera publicación sobre el tema, se desarrollan métodos para la estimación de parámetros tales como la información, la redundancia y la divergencia entre las secuencias de DNA. El objetivo de estos estudios era obtener una expresión cuantitativa que describiera la complejidad de las secuencias.
El segundo período de 1987 al presente (existió un receso en el estudio) después de unos años de pausa, se caracteriza por un renovado interes en la materia como objeto de investigación, esto se debe en parte a los éxitos de los proyectos de secuenciamiento de genomas.
ENTROPIA Vs CONTENIDO INFORMACIONAL
La entropia de la información de una secuencia de ADN se puede describir como el número mínimo de instrucciones que se neceistan para escribir completamente un mensaje; ésta definición utiliza la idea que maneja el algorítmo para obtener la entropía de Kolmogorov-Chaitin (Yockey, 1992).
Por ejemplo si tenemos la secuencia CGCGCGCGCGCGCGCGCGCG, la podemos representar con la instrucción:
- CG repetido 10 veces.
Esta secuencia tiene una entropia informacional muy baja y por consiguiente un contenido informacional bajo.
Con la presencia de tan solo una mutación en la secuencia anterior se incrementa la complejidad de la secuencia y por ende el contenido informacional (ya que aumenta la entropia informacional porque se necesitan más instrucciones para escribir la secuencia anterior) , si cambiamos la G de la sexta posición por una T obtenemos: CGCGCTCGCGCGCGCGCGCG; para representar esta secuencia necesitamos las siguientes instrucciones:
- CG 2 veces.
- CT 1 vez.
- CG 7 veces.
Si ahora duplicamos la secuencia sin mutaciones:
CGCGCGCGCGCGCGCGCGCGCGCGCGCGCGCGCGCGCGCG
el contenido informacional no se incrementa, solo presenciamos un incremento en el número de repeticiones de nucleótidos en la cadena . La instrucción se modifica de GC repetido 10 veces a GC repetido 20 veces.
Pero si duplicamos la secuencia que contiene la mutación:
CGCGCTCGCGCGCGCGCGCGCGCGCTCGCGCGCGCGCGCG
estas son las instrucciones que la representan:
- CG 2 veces.
- CT 1 vez.
- CG 9 veces.
- CT 1 vez.
- CG 7 veces.
Vemos que el número de instrucciones se ha incrementado de 3 a 5, de aquí podemos inferir que la duplicación de una cadena de DNA ( compuesta de más de una repetición de nucleótidos ) significa un incremento global en la complejidad del mensaje.
REPRENTACIÓN INFORMACIONAL
Puesto que existen solo 61 codones que especifican aminoácidos (3 de terminación), 3 aminoácidos son especificados por 6 codones. 5 aminoácidos son especificados por 4codones, 1 aminoácido es especificado por 3 codones, 9 aminoácidos son especificados por 2 codones. 4.139192 es la medida de información por aminoácido.