cap. 2 alineamiento


BLAST (Basic Local
Alignment Search Tool)
BLAST [1] es un conjunto de programas de búsqueda
de similitud diseñados para explorar todos las bases de datos
de secuencias.
Programas de BLAST:
- blastp: Compara una secuencia de aminoácidos contra
una base de datos de secuencias de proteínas.
- blastn: Compara una secuencia de nucleótidos contra
una base de datos de secuencias de nucleótidos.
- blastx: Compara una secuencia de nucleótidos traducida
en sus seis posibles marcos de lectura contra una base de datos
de secuencias de proteínas.
- tblastn: Compara una secuencia de aminoácidos
contra toda la base de datos de nucleótidos traducida en
sus seis posibles marcos de lectura.
Si se necesitara relizar este cálculo con FASTA sería
necesario realiar las traducciones de las secuencias en los distintos
marcos de lectura y ejecutar la busqueda para cada uno de los
seis marcos.
- tblastx: Compara las seis traducciones en sus marcos
de lectura de la secuencia de nucleotidos, contra las seis traducciones
en sus marcos de lectura de toda la base de datos de nucleótidos.
Estadísticas de BLAST
-
Alineamiento local: BLAST realiza
un alineamiento local sin permitir la presencia de huecos, el
alieneamiento se realiza utilizando el algoritmo de Smith&Waterman
(1981) o el algoritmo de Sellers, P.H. (1984) [2] aunque
con una ligera modificación para no permitir la presencia
de huecos en el segmento alineado [tomado de 3]. BLAST devuelve
todos los pares de segmentos mejor alineados (aquellos segmentos
cuyo "score" es inmejorable ya sea por extensión
o corrimiento del segmento), estos segmentos son denominados
"Pares de segmentos con alto score" o HSP por sus
siglas en inglés.
Para evaluar si un "score" alto de un alineamiento
se debe a cambios debidos al azar en las secuencias analizadas
se recurre al análisis estadístico de secuencias
generadas aleatoriamente. Se conoce que la suma de un gran número
de variables aleatorias independientes igualmente distribuidas
(v.a.i.i.d) tiende a la distribución normal y además
el máximo de las v.a.i.i.d tiende a un valor extremo
de la distribución [4].
Tomando dos secuencias de longitud m y n (m, n suficientemente
grandes) el valor del HSP depende de dos parámetros k
y lambda, y el valor esperado del HSP con un score en el alineamiento
no inferior a S (Valor E para el score S) esta dado por la siguiente
formula:

Valor E para el score S
El valor E representa el número de alineamientos
diferentes que tienen un score igual o superor a S que se deben
al azar y que son reportados en la busqueda realizada sobre las
bases de datos (mientras más bajo sea el valor E más
significativo sera el score).
-
Bit Scores: El raw score es el score
S de un alineamiento calculado como la suma de las sustituciones
y el score de los gaps, las sustituciones pueden ser calculadas
a partir de una matriz PAM o BLOSUM y el score de los gap se
puede obtener utilizando algún sistema de penalización.
El raw score es casi imposible de interpretar si se desconocen
los parámetros estadísticos K y lambda, es por
esta razón que se ha propuesto la siguiente normalización
para el raw score:

Normalización del raw score
Una propiedad muy importante del "Bit score" de S' es
que presenta una unidad estandard, el valor E de un "bit score"
S' es:

Valor E para un score S'
-
Valor P: Es la probabilidad de encontrar
un alineamiento con un score igual o mejor a un score dado.
El valor de P es calculado relacionando el score S del alineamiento
observado con la distribución de scores HSP esperada
calculada sobre un conjunto de secuencias aleatorias de igual
longitud y composición como la secuencia que se está
analizando (Los valores P más significativos se presentan
cuando P tiende a 0.).
Los HSPs con un score >= S se simulan con una distribución
de Poisson [5, 6], entonces la probabilidad de encontrar un
HSP con un score >=S esta dada por:

Donde:
E es el valor E de S.
La probabilidad de no encontrar un HSP >= S es: e-E.
La probabilidad de encontrar al menos un HSP >= S es: 1 -
e-E.
Por ejemplo si se espera encontrar tres HSP >= S, la probabilidad
de encontrar al menos uno es de 0.9502129316 y la probabilidad
de no encontrar ni siquiera uno es de 0.04978706837.
BLAST reporta preferentemente el valor E que el valor P puesto
que es más facil observar alguna diferencia significativa
entre dos valores E que entre dos valores P, por ejemplo se
puede observar mayor diferencia entre un valor E de 5 y uno
de 10 que entre un valor P de 0.993 y uno de 0.99995. (cuando
el valor de E < 0.01 es muy cercano al valor P).
Referencias:
- Altschul, Stephen F., Warren Gish, Webb Miller, Eugene W. Myers,
and David J. Lipman (1990). Basic local alignment search tool.
J. Mol. Biol. 215:403-10.
- Sellers, P.H. (1984) "Pattern recognition in genetic sequences
by mismatch density." Bull. Math. Biol. 46:501-514.
- http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html
- Gumbel, E. J. (1958) "Statistics of extremes." Columbia
University Press, New York, NY.
- Karlin, S. & Altschul, S.F. (1990) "Methods for assessing
the statistical significance of molecular sequence features by
using general scoring schemes." Proc. Natl. Acad. Sci. USA
87:2264-2268.(PubMed)
-
Dembo, A., Karlin, S. & Zeitouni, O. (1994) "Limit
distribution of maximal non-aligned two-sequence segmental score."
Ann. Prob. 22:2022-2039.
|

