cap. 2 alineamiento

 

TEORÍA DE LA INFORMACIÓN

UN POCO DE PROBABILIDAD

Dos eventos son independientes si:

Ejemplo:

Juan lanza una moneda k veces y obtiene los siguientes resultados:
P(cara) = 0.7 y P(sello) = 0.3.
Luego encerramos en un cuarto a diez personas (Incluyendo a Juan); alguien lanza la moneda y se obtienen las siguientes probabilidades:
P(cara) = 0.52 y P(sello) = 0.48.
Ahora nos podemos preguntar : ¿Cúal es la probabilidad que Juan haya sido quien lanzó la moneda?

FUNDAMENTOS DE LA TEORÍA DE LA INFORMACIÓN

Información e incertidumbre son términos técnicos para describir algún proceso que selecciona uno o más elementos de un conjunto.

Por ejemplo, supongamos que tenemos una fuente que nos puede generar tres (3) símbolos, A, B o C. Cuando la fuente genere un símbolo X desconecemos (incertidumbre) cual será el próximo símbolo generado; una vez que observamos un símbolo generado nuestra incertidumbre comienza a disminuir (conocemos al menos el símbolo anterior), y podemos recalcar que hemos recibido alguna información, entonces la información y la incertidumbre están estrechamente relacionadas. La información se puede definir como una disminución de la incertidumbre.

¿CÓMO PODEMOS MEDIR LA INCERTIDUMBRE?

Una forma simple es relacionarla directamente con el número de símbolos de la fuente, es decir con nuestra fuente de tres símbolos tendríamos una "incertidumbre de 3 símbolos" ; este planteamiento funciona bastante bien con una sola fuente, pero si adicionamos una segunda fuente que por ejemplo genere dos caracteres D y E, con un incertidumbre propia de 2 símbolos, al analizar simultáneamente las fuentes se generaran 6 símbolos por combinación (AD, AE, BD, BE, CD, CE) obteniendo una incertidumbre de 6 símbolos para el sistema.

Pero usalmente la información no la manipulamos de esta manera, por ejemplo si recibimos dos libros (Fuentes) los analizamos por separado y luego los comparamos, es decir extraemos la información de cada libro de manera independiente y luego podemos "Sumarlas" para encontrar la información total recibida.

CARACTER ADITIVO DE LA INCERTIDUMBRE

Esto es bastante simple, lo primero que debemos hacer el tomar el logarítmo del número posible de símbolos para de esta manera poder sumar los logarítmos en lugar el multiplicar los símbolos. Por ejemplo si observemos nuestras dos fuentes:

FUENTE
SÍMBOLOS
INCERTIDUMBRE
1
A, B, C
LOG (3)
2
D, E
LOG (2)
CONJUNTA
AD,AE,BD,BE,CD,CE
LOG (3) + LOG (2)
Tabla 1

Es de notar que la incertidumbre de la fuente conjunta LOG (3) + LOG (2) es lo mismo que LOG (6).

Por último, la base de el logarítmo determina las unidades a utilizar (Tabla 2)

BASE
UNIDADES
2
bits
3
trits
e
Natural
10
Hartlyes
Tabla 2

De esta manera si nuestra fuente produce un sólo símbolo entonces tenemos una incertidumbre dada por el LOG2 (1) = 0, es decir tenemos total certidumbre sobre el próximo símbolo que generara la fuente. Ahora tomemos el caso en el que nuestra fuente genera más de un símbolo y con diferentes probabilidades, por ejemplo si nuestra fuente 1 genera solo dos (2) símbolos de los tres (3) posibles, tenemos que considerar una incertidumbre dada por el logarítmo de dos (2) en el lugar del logarítmo de tres (3) es decir la incertidumbre de esta fuente es de un (1) bit; más aún si ahora el tercer símbolo aparece aunque sea en muy pocas ocaciones tendremos que manejar un incertidumbre mayor a uno (1) (Superior al Log2 (2)) pero tan alta como la dada por el log2 (3).

Ahora podemos plantear la siguiente ecuación para la incertidumbre:

Pero como las probabilidades de aparición de los símbolos pueden ser diferentes tenemos:

Ahora calculemos la incertidumbre de la observación del simbolo i denotada Ui:

Ui = -LOG2 (Pi)

Si Pi tiende a 0, Sería muy sorprendente observar el símbolo i.y Ui tiende a infinito.

Si Pi tiende a 1, Es natural bservar el símbolo i.y Ui tiende a cero (0). Es decir no existe incerdiumbre ya que este símbolo siempre apareceria.

La incertidumbre es el promedio de los Ui para una cadena que contenga infinitos símbolos, por ahora tomemos una cadena que contenga N símbolos, entonces:

El promedio de los Ui para N símbolos es:

Si nuestra cadena es lo suficientemente larga , entonces la frecuencia (Ni/N) se puede tomar como la probabilidad de aparición del símbolo i (Pi); realizando este reemplazo en la ecuación anterior obtenemos:

Como:

Si nuestros símbolos se generan con igual probabilidad, Pi = (1/M) y sustituyendo este resultado en la ecuación anterior, tenemos:

Por ejemplo, si se tiene una fuente que genera los símbolos A, C, T, y G.
M = 4.

Símbolo
Pi
Ui (bits)
Dígitos
A
1/2
1
1
C
1/4
2
01
G
1/8
3
000
T
1/8
3
001
Tabla 3

La entropia de nuestro sistema es:

En la tabla 3 podemos ver los dígitos binarios necesarios para codificar cada símbolo.

Si tenemos la cadena: ACATGAAC

La podemos codificar de la siguiente manera: 10110010001101.

Notemos que utilizamos 14 dígitos binarios para codificar 8 símbolos, el promedio de uso de dígitos es (14/8) = 1.75 digitos binarios por símbolo; esto ha sido llamado el "Fano Code" .

Los "Fano Codes" tienen la propiedad de poder ser decodificados sin la necesidad de incluir espacios entre símbolos.

REFERENCIAS:

  1. Information Theory Primer, Thomas D. Schneider, July 27-1995,
    http://www-lmmb.ncifcrf.gov/~toms/informationtheoryprimer.ps
  2. An introduction to information theory and entropy, Tom Carter, Complex System Summer School June 2000. http://cogs.csustan.edu.
  3. Application of information theory to DNA sequence analysis: a review, Ramón Román-Roldán, Pedro Bernaloa-Galván y José Oliver, Departamento de Física aplicada, University of Granada, Octubre 16-1995.

 



Universidad Nacional de Colombia
Carrera 30 No 45-03 - Edificio 477
Bogotá D.C. - Colombia
PBX: 3165000
webmaster@unal.edu.co

Aviso Legal - Copyright
Gobierno en LíneaAgencia de Noticias UN