개요

▪︎ 기울기 소실(Vanishing Gradient)

▫︎ 시그모이드 함수의 문제

시그모이드 함수 접선의 기울기의 최대값은 1/4
큰 입력 값에서 기울기는 0에 수렴

▫︎ 기울기 소실

입력층에 가까울수록 계산이 깊어지면서 0에 수렴하기 때문에 가중치 업데이트가 잘 이루어지지 않음 → 학습이 되지 않음
입력층 부분에서 학습이 진행되지 않으면 품질이 낮은 데이터가 전달

▫︎ ReLU(Rectified Linear Unit)

입력이 0보다 크면 그대로 출력(기울기가 1)하고, 0이하이면 0을 출력하는 활성화 함수
f(x) = max(0,x)
최근 가장 많이 사용되는 활성화 함수
음수 값이 들어오면 0을 출력하기 때문에 노드가 죽어버리는 문제가 있음
- 0이하의 값을 작은 기울기를 곱해 출력하는 다양한 ReLU 함수가 있음

▪︎ 배치 정규화와 레이어 정규화

▫︎ 배치 정규화(Batch Normalization)

각 배치별로 평균과 분산을 이용해 정규화 하는것
평균은 0, 표준 편차는 1로 데이터의 분포를 조정
- 재배치 하되, 순서는 바꾸지 않음
이미지 데이터 및 회귀 처리에 활용

▫︎ 레이어 정규화(Layer Normalization)