Algoritmo de retropropagación
El procedimiento de retropropagación es una forma relativamente eficiente de calcular qué tanto se mejora el desempeño con los cambios individuales en los pesos. Se conoce como procedimiento de retropropagación porque, primero calcula cambios en la capa final, reutiliza gran parte de los mismos cálculos para calcular los cambios de los pesos de la penúltima capa y, finalmente, regresa a la capa inicial.
Al comparar la señal de salida con una respuesta deseada o salida objetivo, d(t), se produce una señal de error, e(t), energía de error. Señal de error en la neurona de salida j en la iteración t e(t)=d(t) - y(t) donde t denota el tiempo discreto.
Energía de Error Total:

Energía de error cuadrado.

Primer caso: La neurona j es un nodo de salida.
![]()





La corrección
wji(t)
aplicada a wji(t) se define por la regla delta.
:
parámetro tasa de aprendizaje.

![]()
gradiente local

![]()
Segundo caso: Neurona j es un nodo oculto.










![]()
Regla Delta:

Funciones de Activación

![]()
neurona j de salida
![]()
![]()
neurona j es oculta
![]()
neurona j de salida
neurona j en capa oculta
Regla Delta Generalizada
![]()
![]()
![]()
ALGORITMO
1. INICIALIZACION
Escoger los pesos sinápticos y umbrales de una distribución uniforme suya media es cero y varianza se escoge de tal forma que haga la desviación estándar de los campos inducidos de las neuronas con valor en la transición entre las partes lineal y saturada de la función de activación sigmoide.
2. PRESENTACIONES DE LOS EJEMPLOS DE ENTRENAMIENTO
Presentar un estado de los patrones de entrenamiento a la red.
3. CALCULO HACIA ADELANTE
Sea (x(t),d(t)) un ejemplo de entrenamiento
4. CALCULO HACIA ATRAS
Calcule los
s (gradientes locales).
Ajustar los pesos de la red en la capa l de acuerdo con:
5. ITERACION
Iterar lo cálculos hacia delante y hacia atrás, presentando nuevas épocas de ejemplos de entrenamiento hasta que el criterio de parada se cumpla. El orden de presentación de los ejemplos de entrenamiento se debe hacer al azar entre estados(épocas).
MODOS DE ENTRENAMIENTO
CRITERIOS DE PARADA
Se considera que el algoritmo ha convergido cuando
la norma euclideana del vector gradiente alcanza un umbral de gradiente
suficientemente pequeño. Se considera que el algoritmo ha
convergido cuando la norma tasa absoluta de cambio en el error cuadrado
promedio por época es suficientemente pequeño.