학습내용이전 시간의 비용함수가 전체 데이터셋의 예측이 얼마나 잘 평가되었는지 보는 것이라면, 경사하강법은 이를 가능케하는 파라미터 w와 b를 찾아내는 방법 중 하나 입니다.우선, 비용 함수는 볼록한 형태여야 합니다. 볼록하지 않은 함수를 쓰게 되면, 경사하강법을 통해 최적의 파라미터를 찾을 수 없습니다.함수의 최소값을 모르기 때문에, 임의의 점을 골라서 시작합니다.경사하강법은 가장 가파른(steepest) 방향, 즉 함수의 기울기를 따라서 최적의 값으로 한 스텝씩 업데이트하게 됩니다.알고리즘은 아래와 같습니다. w:w−αdw dJ(w,b) b:b−αdb dJ(w,b) α : 학습률이라고 하며, 얼만큼의 스텝으로 나아갈 것인지 정합니다. dw dJ(w) : 도함수라고 하며, 미분을 통해 구한 값 입니다. dw 라고 표기하기도 합니다. 만약 dw >0 이면, 파라미터 w 는 기존의 w 값 보다 작은 방향으로 업데이트 될 것이고, 만약 dw <0 이면, 파라미터 w 는 기본의 w 값 보다 큰 방향으로 업데이트 될 것입니다.도함수는 함수의 기울기라고 볼 수 있습니다. 다음 시간에 조금 더 자세히 설명하겠습니다. 하나의 변수에 대한 도함수는 dw=dw df(w) 라고 표기하지만 두 개 이상은 보통 아래와 같이 표현 합니다. dw=∂w ∂J(w,b) : 함수의 기울기가 w 방향으로 얼만큼 변했는지 나타냅니다. db=∂b ∂J(w,b) : 함수의 기울기가 b 방향으로 얼만큼 변했는지 나타냅니다.
comment
잘 들었습니다. 감사합니다.
비용함수 J가 볼록하지 않아 지역최적값이 여러개 나오는 경우에 경사하강법을 사용할 수 없어서 지난시간에 배운 손실함수와 비용함수를 이용한다고 했는데, 지역최적값이 여러개 나오는 비용함수의 경우 아예 경사하강법을 사용할 수 없는 것인지 아니면 비효율적이여서 사용하지 않는 것인지 궁금합니다. 또한 지역최적값이 여러개 나오는 경우의 비용함수의 값이 볼록한 경우의 비용함수의 값보다 더 작을 수 있는 지 궁금합니다.