FASTA
FASTA fue el primer algoritmo ampliamente utilizado para busqueda de similitud en una base de datos. FASTA busca alineamientos locales óptimos buscando coincidencias de peqeñas subsecuencias denominadas palabras ("words o k-tuplas"), el score del primer segmento en el que se aparean varias palabras se denomina "init1" y la suma de todos los score de los segmentos se denomina "initn". La sensibilidad y velocidad del algoritmo es inversamente proporcional a la longitud de la palabra utilizada en la busqueda.
Desarrollado por David Lipman y William Pearson en el año de 1985. es empleado principalmente por el EMBL - EBI (European Molecular Biology Laboratories - European Bioinformatics Institute), si se compara su velocidad con BLAST se notará que es mucho más lento, incluso llegá hasta a emplear varias horas para obtener los resultados, es por está razón que el EMBL envía los cálculos al usuario por correo electróncio.
FASTA compara una secuencia de DNA o de proteínas contra todas las secuencias de una base de datos y devuelve los mejores segmentos alineados.
Básicamente FASTA emplea cuatro pasos para obtener los tres scores que caracterizan la similitud entre secuencias:
| Secuencia | 1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
| 1 |
N |
D |
P |
R |
Q |
S |
. |
. |
. |
| 2 |
. |
. |
. |
. |
A |
S |
D |
P |
R |
| Aminoácido |
Posición en 1 |
Posición en 2 |
Corrimiento |
|---|---|---|---|
| A |
- |
5 |
|
| D |
2 |
7 |
-5 |
| N |
1 |
- |
|
| P |
3 |
8 |
-5 |
| Q |
5 |
- |
|
| R |
4 |
9 |
-5 |
| S |
6 |
6 |
0 |
| Secuencia | 1 |
2 |
3 |
4 |
5 |
6 |
7 |
| 1 |
N |
D |
P |
R |
Q |
S |
|
| 2 |
A |
S |
D |
P |
R |
FORMATO FASTA:
Una secuencia en formato FASTA inicia con una sola línea conteniendo la información de la secuencia y a continuación de esta línea sigue la secuencia.
La línea informativa inicia con el símbolo > como se muestra a continuación y se recomienda que las líneas no excedan los 80 caracteres de longitud:
>gi|2230874|emb|X99726.1|HSNDUFV31 H.sapiens NDUFV3 gene, exon
1
GAAGCTGCTGTGGCCCTGCTTGGTGCGCCCGCTGTCACCGCCATGGCTGCCCCGTGTTTGCTGAGGAAAG
GACGAGCCGGGGCGCTGAAGGTAAAGGAGGAGCCAGCTGGGCTGGGTGCG
Sí la secuencia es de nucleótidos el formato permite los siguientes símbolos:
| Símbolo |
Significado |
|---|---|
| A |
Adenina |
| C |
Citosina |
| G |
Guanina |
| T |
Timina |
| U |
Uracilo |
| R |
Purina |
| Y |
Pirimidina |
| K |
G o T |
| N |
A, C, G o T |
| - |
Hueco |
Sí la secuencia es de aminoácidos el formato permite los siguientes símbolos:
| Símbolo |
Significado |
Símbolo |
Significado |
|---|---|---|---|
| A |
Alanina |
P |
Prolina |
| B |
Asparagina |
Q |
Glutamina |
| C |
Cisteina |
R |
Arginina |
| D |
Ácido Aspártico |
S |
Serina |
| E |
Ácido Glutámico |
T |
Treonina |
| F |
Fenilalanina |
U |
Selenocysteina |
| G |
Glicina |
V |
Valina |
| H |
Histidina |
W |
Triptófano |
| I |
Isoleucina |
Y |
Tirosina |
| K |
Lisina |
Z |
Ácido Glutámico |
| L |
Leucina |
M |
Metionina |
| N |
Asparagina |
* |
Fin de la traducción |
| - |
gap de longitud indeterminada |
||
Referencias: