El alineamiento de secuencias biológicas consiste en establecer un segmento entre ellas donde el número de coincidencias (una coincidencia se presenta cuando el nucleótido de la secuencia A sea igual al nucleótido en la secuencia B) sea máximo. Cuando se analizan secuencias es común utilizar los términos similitud y homología de forma indiscriminada, pero estos dos términos hacen referencia a conceptos distintos.
SIMILITUD: Es el resultado del análisis (observación cuantitativa) de la estructura primaria de dos o más secuencias; la secuencias pueden ser ácidos nucleicos o proteínas. Puesto que la similitud es obtenida de observar las secuencias no puede ser tomada como un indicador para establecer la relación biológica (descendencia) entre las secuencias, ya que el grado de similitud puede deberse a cambios aleatorios acumulados en las secuencias a través del tiempo.
HOMOLOGÍA: La homología es una medida cualitativa entre las secuencias se presenta cuando la similitud que estás tienen es atribuible a razones evolutivas y no al azar, es decir, la homología establece regiones entre las secuencias que se han connservado con el tiempo.
La similitud es el resultado de una medida cuantitativa, la homología es una hipótesis postulada por el investigador basandose en la similitud de las secuencias y en otros datos biológicos que previamente conozca sobre el origen de dichas secuencias. Es permitido establecer el porcentaje se similitud de dos o más secuencias, pero esto no es posible para la homología, ya que las secuencias son o no son homólogas.
El alineamiento se puede clasificar por:
BASES DE DATOS DE SECUENCIAS BIOLÓGICAS
Los avances en las ténicas de secuenciamiento automático de genomas han generado una gran cantidad de información de secuencias de ácidos nucleicos y aminoácidos, esta información se ha ido almacenado en bases de datos internacionales (a excepción de la compañia Celera Genomics la cual ha implementado su propia base de datos) a las cuales los investigadores tienen acceso.
ÁCIDOS NUCLEICOS
| NUCLEÓTIDOS |
|
|---|---|
| Base
de datos |
Descripción |
| nr | Contiene todas las secuencias sin redundancia de GenBank, EMBL, DDBJ y PDB excepto las secuencias EST, STS, GSS, y HTGS. |
| month | Contiene todas las secuencias "liberadas" de GenBank, EMBL, DDBJ y PDB de los últimos 30 días. |
| dbest | Base de datos no redundante de EST's con los registros de GenBank, EMBL, y DDBJ |
| dbsts | Base de datos no redundante de STS's con los registros de GenBank, EMBL, y DDBJ |
| mouse ests | Base de datos no redundante de EST's del ratón con los registros de GenBank, EMBL, y DDBJ. |
| human ests | Base de datos no redundante de EST's del hombre con los registros de GenBank, EMBL, y DDBJ. |
| other ests | Base de datos no redundante de EST's de todos los organismos (excepto el hombre y el ratón) con los registros de GenBank, EMBL, y DDBJ. |
| yeast | Secuencias genómicas de la levadura (Saccharomyces cerevisiae) |
| E. coli | Secuencias genómicas de la Escherichia coli. |
| pdb | Secuencias obtenidas a partir de la estructura en tres dimensiones de las proteínas. |
| kabat | Base de datos de secuencias de interés inmunológico. |
| patents | Secuencias de nucleótidos patentadas por Genbank. |
| mito | Secuencias de mitocondrias. |
PROTEÍNAS:
| PROTEINAS |
|
|---|---|
| Base
de datos |
Descripción |
| nr | Todos los registros no redundantes de GenBank CDSt ranslations, PDB, SwissProt, PIR y PRF. |
| month | Todos los registros no redundantes de GenBank CDSt ranslations, PDB, SwissProt, PIR y PRF "ilberados" en los útimos 30 días. |
| swissprot | Base de datos de proteías (EMBL). | patents | Secuencias de proteínas patentadas por Genbank. | yeast | Secuencias de proteínas de la levadura (Saccharomyces cerevisiae) |
| E. coli | Secuencias de CDS traducidos de la Escherichia coli. |
| pdb | Secuencias obtenidas de la estructura terciaria de las proteínas. |
| kabat | Base de datos de secuencias de interés inmunológico. |