▪︎ 기울기 소실(Vanishing Gradient)
▫︎ 시그모이드 함수의 문제
- 시그모이드 함수 접선의 기울기의 최대값은 1/4
- 큰 입력 값에서 기울기는 0에 수렴
▫︎ 기울기 소실
- 입력층에 가까울수록 계산이 깊어지면서 0에 수렴하기 때문에 가중치 업데이트가 잘 이루어지지 않음 → 학습이 되지 않음
- 입력층 부분에서 학습이 진행되지 않으면 품질이 낮은 데이터가 전달
▫︎ ReLU(Rectified Linear Unit)
- 입력이 0보다 크면 그대로 출력(기울기가 1)하고, 0이하이면 0을 출력하는 활성화 함수
- f(x) = max(0,x)
- 최근 가장 많이 사용되는 활성화 함수
- 음수 값이 들어오면 0을 출력하기 때문에 노드가 죽어버리는 문제가 있음
- 0이하의 값을 작은 기울기를 곱해 출력하는 다양한 ReLU 함수가 있음
▪︎ 배치 정규화와 레이어 정규화
▫︎ 배치 정규화(Batch Normalization)
- 각 배치별로 평균과 분산을 이용해 정규화 하는것
- 평균은 0, 표준 편차는 1로 데이터의 분포를 조정
- 이미지 데이터 및 회귀 처리에 활용
▫︎ 레이어 정규화(Layer Normalization)