regularization (2) 썸네일형 리스트형 Batch Normalization Layer 를 많이 쌓게되면 학습을 하는 동안 각 layer 의 input 의 분포가 계속 달라지게 된다. 이런 현상을 internal covariate shift 라 하는데, 이로 인하여 모델의 학습이 어렵고, learning rate 를 낮게 셋팅해야 하는 문제가 발생한다. Batch normalization 은 internal covariate shift 를 해결하기 위해 layer 의 input batch 를 normalization 하는 방법이다. Batch normalization 은 non-linear activation funtion 앞에 배치되며, activation function 의 input 에 대하여 아래와 같은 transformation 을 적용한다. $n$ 은 batch siz.. L1, L2 Regularization L1, L2 regularization 은 모델의 overfitting 을 완화하기 위해, 모델의 복잡도에 부여하는 패널티다. 모델의 bias, variance 관점에서는 variance 를 낮추기 위한 방법이다. L1 regularization 은 L2 에 비해 weight 가 0으로 학습될 가능성이 높다. 이런 특징 때문에 L1 regularization 은 feature selection 을 위해 사용되기도 한다. Weight space 관점에서 L1 regularization 를 사용할 때 weight 가 0이 될 가능성이 높은 이유를 살펴볼 수 있다. 그림을 그리기 위해 weight 를 2차원 vector 로 가정해보자. 최적화를 할 때 regularization term 이 $t$ 보다 작을 .. 이전 1 다음