Learning Rate
cost function(loss function)의 global minimum을 찾기 위해서 Gradient descent를 사용한다.
$$ \mathbf{W} := \mathbf{W} - \alpha \frac{\partial}{{\partial}\mathbf{W}}loss(\mathbf{W})
$$
위 gradient descent에서 곱해지는 $\alpha$ 값이 learning rate이다.
- learning rate가 큰 경우
- Overshooting 발생
- learning rate가 작은 경우
- training 속도가 너무 느림
보통 learning rate는 0.01로 설정 후 학습해보고 학습 결과가 발산하면 값을 줄이고, 학습 시간이 너무 오래걸리면 큰 값으로 설정한다.
'Machine Learning' 카테고리의 다른 글
DATASET - Image Classification (0) | 2021.02.05 |
---|---|
[머신러닝 개념정리] Normalization/Standardization/Regularization (0) | 2020.04.08 |
Scikit-learn Datasets 관련 정리 (0) | 2020.02.14 |
선형(Linear)에 대한 이해 (0) | 2019.11.23 |
Monte Carlo Tree Search (0) | 2019.10.28 |