cap. 2 alineamiento

 

BLAST (Basic Local Alignment Search Tool)

BLAST [1] es un conjunto de programas de búsqueda de similitud diseñados para explorar todos las bases de datos de secuencias.

Programas de BLAST:

  1. blastp: Compara una secuencia de aminoácidos contra una base de datos de secuencias de proteínas.
  2. blastn: Compara una secuencia de nucleótidos contra una base de datos de secuencias de nucleótidos.
  3. blastx: Compara una secuencia de nucleótidos traducida en sus seis posibles marcos de lectura contra una base de datos de secuencias de proteínas.
  4. tblastn: Compara una secuencia de aminoácidos contra toda la base de datos de nucleótidos traducida en sus seis posibles marcos de lectura.
    Si se necesitara relizar este cálculo con FASTA sería necesario realiar las traducciones de las secuencias en los distintos marcos de lectura y ejecutar la busqueda para cada uno de los seis marcos.
  5. tblastx: Compara las seis traducciones en sus marcos de lectura de la secuencia de nucleotidos, contra las seis traducciones en sus marcos de lectura de toda la base de datos de nucleótidos.

Estadísticas de BLAST

  1. Alineamiento local: BLAST realiza un alineamiento local sin permitir la presencia de huecos, el alieneamiento se realiza utilizando el algoritmo de Smith&Waterman (1981) o el algoritmo de Sellers, P.H. (1984) [2] aunque con una ligera modificación para no permitir la presencia de huecos en el segmento alineado [tomado de 3]. BLAST devuelve todos los pares de segmentos mejor alineados (aquellos segmentos cuyo "score" es inmejorable ya sea por extensión o corrimiento del segmento), estos segmentos son denominados "Pares de segmentos con alto score" o HSP por sus siglas en inglés.
    Para evaluar si un "score" alto de un alineamiento se debe a cambios debidos al azar en las secuencias analizadas se recurre al análisis estadístico de secuencias generadas aleatoriamente. Se conoce que la suma de un gran número de variables aleatorias independientes igualmente distribuidas (v.a.i.i.d) tiende a la distribución normal y además el máximo de las v.a.i.i.d tiende a un valor extremo de la distribución [4].
    Tomando dos secuencias de longitud m y n (m, n suficientemente grandes) el valor del HSP depende de dos parámetros k y lambda, y el valor esperado del HSP con un score en el alineamiento no inferior a S (Valor E para el score S) esta dado por la siguiente formula:

  2. Valor E para el score S

    El valor E representa el número de alineamientos diferentes que tienen un score igual o superor a S que se deben al azar y que son reportados en la busqueda realizada sobre las bases de datos (mientras más bajo sea el valor E más significativo sera el score).

  3. Bit Scores: El raw score es el score S de un alineamiento calculado como la suma de las sustituciones y el score de los gaps, las sustituciones pueden ser calculadas a partir de una matriz PAM o BLOSUM y el score de los gap se puede obtener utilizando algún sistema de penalización.
    El raw score es casi imposible de interpretar si se desconocen los parámetros estadísticos K y lambda, es por esta razón que se ha propuesto la siguiente normalización para el raw score:

  4. Normalización del raw score

    Una propiedad muy importante del "Bit score" de S' es que presenta una unidad estandard, el valor E de un "bit score" S' es:


    Valor E para un score S'

  5. Valor P: Es la probabilidad de encontrar un alineamiento con un score igual o mejor a un score dado. El valor de P es calculado relacionando el score S del alineamiento observado con la distribución de scores HSP esperada calculada sobre un conjunto de secuencias aleatorias de igual longitud y composición como la secuencia que se está analizando (Los valores P más significativos se presentan cuando P tiende a 0.).
    Los HSPs con un score >= S se simulan con una distribución de Poisson [5, 6], entonces la probabilidad de encontrar un HSP con un score >=S esta dada por:

    Donde:
    E es el valor E de S.
    La probabilidad de no encontrar un HSP >= S es: e-E.
    La probabilidad de encontrar al menos un HSP >= S es: 1 - e-E.

    Por ejemplo si se espera encontrar tres HSP >= S, la probabilidad de encontrar al menos uno es de 0.9502129316 y la probabilidad de no encontrar ni siquiera uno es de 0.04978706837.
    BLAST reporta preferentemente el valor E que el valor P puesto que es más facil observar alguna diferencia significativa entre dos valores E que entre dos valores P, por ejemplo se puede observar mayor diferencia entre un valor E de 5 y uno de 10 que entre un valor P de 0.993 y uno de 0.99995. (cuando el valor de E < 0.01 es muy cercano al valor P).

Referencias:

  1. Altschul, Stephen F., Warren Gish, Webb Miller, Eugene W. Myers, and David J. Lipman (1990). Basic local alignment search tool. J. Mol. Biol. 215:403-10.
  2. Sellers, P.H. (1984) "Pattern recognition in genetic sequences by mismatch density." Bull. Math. Biol. 46:501-514.
  3. http://www.ncbi.nlm.nih.gov/BLAST/tutorial/Altschul-1.html
  4. Gumbel, E. J. (1958) "Statistics of extremes." Columbia University Press, New York, NY.
  5. Karlin, S. & Altschul, S.F. (1990) "Methods for assessing the statistical significance of molecular sequence features by using general scoring schemes." Proc. Natl. Acad. Sci. USA 87:2264-2268.(PubMed)
  6. Dembo, A., Karlin, S. & Zeitouni, O. (1994) "Limit distribution of maximal non-aligned two-sequence segmental score." Ann. Prob. 22:2022-2039.

 



Universidad Nacional de Colombia
Carrera 30 No 45-03 - Edificio 477
Bogotá D.C. - Colombia
PBX: 3165000
webmaster@unal.edu.co

Aviso Legal - Copyright
Gobierno en LíneaAgencia de Noticias UN