L1, L2 regularization 은 모델의 overfitting 을 완화하기 위해, 모델의 복잡도에 부여하는 패널티다. 모델의 bias, variance 관점에서는 variance 를 낮추기 위한 방법이다.
L1 regularization 은 L2 에 비해 weight 가 0으로 학습될 가능성이 높다. 이런 특징 때문에 L1 regularization 은 feature selection 을 위해 사용되기도 한다.
Weight space 관점에서 L1 regularization 를 사용할 때 weight 가 0이 될 가능성이 높은 이유를 살펴볼 수 있다.
그림을 그리기 위해 weight 를 2차원 vector 로 가정해보자. 최적화를 할 때 regularization term 이 $t$ 보다 작을 때까지 학습을 해야 한다고 가정하면 각 regularization 을 사용 했을 때 weight 의 constraint region 을 다음과 같이 생각할 수 있다.
$$|w_1| + |w_2| \leq t\\ w_1^2 + w_2^2 \leq t^2$$
이를 그림으로 그리면 아래와 같다.
파란색 점은 training set 에서 loss 가 가장 작은 weight 값들이고 등고선은 같은 크기의 loss 를 만드는 weight 들을 나타낸다. 누런색 영역은 constraint region 이다.
Weight 들이 파란색 점이 되었을 때 loss 가 가장 작지만, weight 들의 크기가 커져 overfitting 이 유발될 수 있다. 이 때 regularization term 을 objective function 에 추가하면 학습 결과는 누런색 영역 안에서만 존재하게 된다.
이 때 constraint region 에서 가장 작은 loss 를 만들어내는 (파란색 점에 가장 가까운) weight 들을 살펴보면 L2 의 경우에는 원의 어딘가에 위치하고, L1 의 경우 $w_2$ 가 0인 꼭지점에 존재하게 된다.
항상 이런 해가 나오는 것은 아니지만, 직관적으로 '어딘가에 파란색 점이 있고, constraint region 에서 파란점에 가장 가까운 point 를 찍어야 하는 상황에서 원 보다는 다이아몬드가 두 weight 중 하나가 0일 가능성이 높다' 정도로 이해하면 될 것 같다.
'데이터 과학 > 데이터 과학 기초' 카테고리의 다른 글
Batch Normalization (0) | 2020.12.29 |
---|---|
직관적인 Universal Approximation Theorem 증명 (0) | 2020.12.18 |
Bias-Variance Trade-off (0) | 2020.12.06 |
Overfitting과 Underfitting (0) | 2020.12.03 |