본문 바로가기

데이터 과학/데이터 과학 기초

L1, L2 Regularization

 L1, L2 regularization 은 모델의 overfitting 을 완화하기 위해, 모델의 복잡도에 부여하는 패널티다. 모델의 bias, variance 관점에서는 variance 를 낮추기 위한 방법이다.

 

 

 L1 regularization 은 L2 에 비해 weight 가 0으로 학습될 가능성이 높다. 이런 특징 때문에 L1 regularization 은 feature selection 을 위해 사용되기도 한다.

 

 Weight space 관점에서 L1 regularization 를 사용할 때 weight 가 0이 될 가능성이 높은 이유를 살펴볼 수 있다.

그림을 그리기 위해 weight 를 2차원 vector 로 가정해보자. 최적화를 할 때 regularization term 이 $t$ 보다 작을 때까지 학습을 해야 한다고 가정하면 각 regularization 을 사용 했을 때 weight 의 constraint region 을 다음과 같이 생각할 수 있다.

$$|w_1| + |w_2| \leq t\\ w_1^2 + w_2^2 \leq t^2$$

이를 그림으로 그리면 아래와 같다.

왼쪽 원은 L2 regularization 이 적용 되었을 때의 constraint region 이고, 오른쪽 다이아몬드는 L1 regularization 이 적용 되었을 때의 constraint region 이다.

 파란색 점은 training set 에서 loss 가 가장 작은 weight 값들이고 등고선은 같은 크기의 loss 를 만드는 weight 들을 나타낸다. 누런색 영역은 constraint region 이다.

 

 Weight 들이 파란색 점이 되었을 때 loss 가 가장 작지만, weight 들의 크기가 커져 overfitting 이 유발될 수 있다. 이 때 regularization term 을 objective function 에 추가하면 학습 결과는 누런색 영역 안에서만 존재하게 된다.

 

 이 때 constraint region 에서 가장 작은 loss 를 만들어내는 (파란색 점에 가장 가까운) weight 들을 살펴보면 L2 의 경우에는 원의 어딘가에 위치하고, L1 의 경우 $w_2$ 가 0인 꼭지점에 존재하게 된다.

 

 항상 이런 해가 나오는 것은 아니지만, 직관적으로 '어딘가에 파란색 점이 있고, constraint region 에서 파란점에 가장 가까운 point 를 찍어야 하는 상황에서 원 보다는 다이아몬드가 두 weight 중 하나가 0일 가능성이 높다' 정도로 이해하면 될 것 같다. 

 

'데이터 과학 > 데이터 과학 기초' 카테고리의 다른 글

Batch Normalization  (0) 2020.12.29
직관적인 Universal Approximation Theorem 증명  (0) 2020.12.18
Bias-Variance Trade-off  (0) 2020.12.06
Overfitting과 Underfitting  (0) 2020.12.03
본 블로그는 쿠팡 파트너스 활동을 포함하고 있으며, 이에 따른 일정액의 수수료를 제공받습니다.