Learning Rate cost function(loss function)의 global minimum을 찾기 위해서 Gradient descent를 사용한다. $$ \mathbf{W} := \mathbf{W} - \alpha \frac{\partial}{{\partial}\mathbf{W}}loss(\mathbf{W}) $$ 위 gradient descent에서 곱해지는 $\alpha$ 값이 learning rate이다. learning rate가 큰 경우 Overshooting 발생 learning rate가 작은 경우 training 속도가 너무 느림 보통 learning rate는 0.01로 설정 후 학습해보고 학습 결과가 발산하면 값을 줄이고, 학습 시간이 너무 오래걸리면 큰 값으로 설정한다.