cap. 2 alineamiento

 

ALINEAMIENTO LOCAL DE UN PAR DE SECUENCIAS POR MEDIO DEL ALGORITMO DE SMITH & WATERMAN

El algoritmo de Smith and Waterman (1981) encuentra el segmento mejor alineado entre un par de secuencias.

Descripción:

Dadas dos secuencias A y B. 

A=a1a2...an y B=b1b2...b

Se define:

Características:

  1. A las no coincidencias se le asigna un puntaje (peso) negativo.
  2. El mínimo puntaje guardado en la matriz debe ser cero.
  3. El inicio y final de un camino óptimo puede encontrarse en cualquier sitio de la matriz , no solo en la última fila o columna.
  4. El puntaje se incrementa en una región de alta similaridad y disminuye fuera de tales regiones.
  5. Si hay dos segmentos de alta similaridad, entonces deben estar lo suficientemente cercanos para que puedan encadenarse por un hueco o quedarán como segmentos independientes de similaridad local.
  6. Cada segmento de similaridad debe iniciar con un puntaje de cero.
  7. Se debe buscar en toda la matriz las regiones de alta similaridad local.

Procedimiento:

Figura 1. Cálculo del valor de Hij

  1. Se inicializa la matriz H con ceros.
  2. La posición Hij es la máxima similitud de dos segmentos que terminan en ai y bj respectivamente.  Y se obtiene de la siguiente expresión:

    Hij = max { Hi-1,j-1 + S(ai,bj)  , maxk>1 {Hi-k,j - Wk}, maxl>1 {Hi,j-l - Wl } , 0 }   

    con  1<i<n y 1<j<m  y Wk = A + B*k     Wl = A + B* l

El segmento mejor alineado se obtiene de la matriz H ubicando en esta matriz la posición con el valor más alto y por medio de un procedimiento traceback se recuperan los residuos que conforman el segmento, el traceback se detiene cuando encuentra un cero en la diagonal de la matriz. Este procedimiento se puede aplicar de nuevo a la matriz con el fin de recuperar un nuevo segmento alineado.

Por ejemplo, si se tienen las siguientes secuencias:

Secuencia A: CAGCCUCGCUUAG,  m= 13
Secuencia B: AAUGCCAUUGACGG, n= 14

Parámetros:


.
j

1

2

3

4

5

6

7

8

9

10

11

12

13

i
.

C

A

G

C

C

U

C

G

C

U

U

A

G

1

A

0.0

1.0

0.0

0.0

0.0

0.0

0.0

0.0

0.0

0.0

0.0

1.0

0.0

2

A

0.0

1.0

0.7

0.0

0.0

0.0

0.0

0.0

0.0

0.0

0.0

1.0

0.7

3

U

0.0

0.0

0.7

0.3

0.0

1.0

0.0

0.0

0.0

1.0

1.0

0.0

0.7

4

G

0.0

0.0

1.0

0.3

0.0

0.0

0.7

1.0

0.0

0.0

0.7

0.7

1.0

5

C

1.0

0.0

0.0

2.0

1.3

0.3

1.0

0.3

2.0

0.7

0.3

0.3

0.3

6

C

1.0

0.7

0.0

1.0

3.0

1.7

1.3

1.0

1.3

1.7

0.3

0.0

0.0

7

A

0.0

2.0

0.7

0.3

1.7

2.7

1.3

1.0

0.7

1.0

1.3

1.3

0.0

8

U

0.0

0.7

1.7

0.3

1.3

2.7

2.3

1.0

0.7

1.7

2.0

1.0

1.0

9

U

0.0

0.3

0.3

1.3

1.0

2.3

2.3

2.0

0.7

1.7

2.7

1.7

1.0

10

G

0.0

0.0

1.3

0.0

1.0

1.0

2.0

3.3

2.0

1.7

1.3

2.3

2.7

11

A

0.0

1.0

0.0

1.0

0.3

0.7

0.7

2.0

3.0

1.7

1.3

2.3

2.0

12

C

1.0

0.0

0.7

1.0

2.0

0.7

1.7

1.7

3.0

2.7

1.3

1.0

2.0

13

G

0.0

0.7

1.0

0.3

0.7

1.7

0.3

2.7

1.7

2.7

2.3

1.0

2.0

14

G

0.0

0.0

1.7

0.7

0.3

0.3

1.3

1.3

2.3

1.3

2.3

2.0

2.0

Tabla 1. Matriz H.

El máximo score de la matriz H (Tabla 1) es 3.3 y se encuentra en la posición (10,8); a partir de este sitio se empieza a recorrer la matriz hacia atrás (camino en rojo) hasta se encuentra un cero en la diagonal (posición (3,2)).

El segmento alineado es:

GCCAUUG

GCC_UCG


Este algoritmo fue modificado mas tarde por Waterman y Eggert en 1987.  La modificación fue la siguiente:

Hij = max { Hi-1,j-1 + S(ai,bj)  , Eij , Fij , 0 }   

Eij  = max {Hi,j-l - (u+v),  Ei,j-l - v }

Fij = max {H i-l,j - (u+v),  Fi-l,j - v }

Donde l es el tamaño posible del indels.

REFERENCIAS:

 



Universidad Nacional de Colombia
Carrera 30 No 45-03 - Edificio 477
Bogotá D.C. - Colombia
PBX: 3165000
webmaster@unal.edu.co

Aviso Legal - Copyright
Gobierno en LíneaAgencia de Noticias UN