예를 들어 g(z)=z,b[l]=0 이라고 가정했을 때 y^=w[l]w[l−1]...w[2]w[1]x 가 됩니다. 이때 모든 가중치 행렬 w=1.5E 라고 가정하면( E 는 단위 행렬입니다.) y^=1.5(l−1)Ex 가 되고 더 깊은 신경망일수록 y^ 의 값은 기하급수적으로 커집니다. 반대로 모든 가중치 행렬 w=0.5E 라고 가정하면 y^=0.5(l−1)Ex 가 되고 더 깊은 신경망일수록 y^ 의 값은 기하급수적으로 감소합니다. 이를 토대로 생각하면 경사 하강법에서 w의 값이 단위행렬보다 큰 값이라면 경사의 폭발, w 의 값이 단위 행렬보다 작은 값이라면 경사의 소실 문제점이 생깁니다.
경사의 소실과 폭발로 인해 학습 시키는데 많은 시간이 걸리기에 가중치 초기화 값을 신중하게 해야합니다. 이는 다음 강의에서 배우도록 하겠습니다.
comment