본문 바로가기

데이터 과학/데이터 과학 기초

Overfitting과 Underfitting

 Overfitting 은 모델이 training set 의 noise 까지 학습하여 test set 에서의 성능이 하락하는 현상이다.

 

 아래 그림에서 모델링을 하고자 하는 함수는 검은색 선이다. 하지만 sample 이 drawn 될 때에는 noise 가 더해지기 때문에 검은색 경계선 주변에는 파란색, 빨간색 point 가 혼재될 수 있다.

 

 이런 상황에서 모델이 drawn 된 sample 들에 맞춰 과하게 학습되면 아래의 초록색 선과 같이 복잡한 함수가 나오게 된다. 검은색 선을 경계로 앞으로 draw 될 sample 까지 잘 분류하기 위해서는 이미 draw 된 빨간색, 파란색 sample 들만을 가지고 검은색 선에 최대한 가까운 함수를 찾아야 한다.

 

 Underfitting 은 overfitting 과 반대로 target function (검은색 선) 을 표현하기 위한 정보가 모델이 충분히 반영되지 않아 test set 에서의 성능이 낮은 현상이다. Underfitting은 training set 이 부족하거나 모델의 표현력이 적을 때 발생할 수 있다.

 

 위의 그림에서 sample의 개수가 줄어 듬성듬성 있게 된다면 직선만으로 이미 draw 된 빨간색, 파란색 sample 을 분류할 수 있다고 착각할 수 있다. 혹은 모델의 복잡도가 낮아 직선만 표현할 수 있는 경우에는 아무리 학습을 잘 하더라도 검은색 선과 같은 함수를 찾을 수가 없다

'데이터 과학 > 데이터 과학 기초' 카테고리의 다른 글

Batch Normalization  (0) 2020.12.29
직관적인 Universal Approximation Theorem 증명  (0) 2020.12.18
L1, L2 Regularization  (0) 2020.12.08
Bias-Variance Trade-off  (0) 2020.12.06
본 블로그는 쿠팡 파트너스 활동을 포함하고 있으며, 이에 따른 일정액의 수수료를 제공받습니다.