본문 바로가기

데이터 과학/데이터 과학 기초

(5)
Batch Normalization Layer 를 많이 쌓게되면 학습을 하는 동안 각 layer 의 input 의 분포가 계속 달라지게 된다. 이런 현상을 internal covariate shift 라 하는데, 이로 인하여 모델의 학습이 어렵고, learning rate 를 낮게 셋팅해야 하는 문제가 발생한다. Batch normalization 은 internal covariate shift 를 해결하기 위해 layer 의 input batch 를 normalization 하는 방법이다. Batch normalization 은 non-linear activation funtion 앞에 배치되며, activation function 의 input 에 대하여 아래와 같은 transformation 을 적용한다. $n$ 은 batch siz..
직관적인 Universal Approximation Theorem 증명 Bias-variance trade-off 포스트에서 언급된 bias loss 를 줄이기 위해서는 feed-forward neural network 를 사용해볼 수 있다. 이런 feed-forward neural network 의 학습능력의 바탕에는 universal approximation theorem 이 있다. Universal approximation theorem 의 내용은 아래와 같다. 임의의 개수의 neuron 을 포함하고, activation function 이 sigmoid 이면서, 1 hidden layer 를 가진 feed-forward neural network 는 적절한 weights 만 주어진다면 어떤 함수든 근사화 할 수 있다. 컴퓨터공학도에게 위의 내용을 엄밀하게 증명하는 건..
L1, L2 Regularization L1, L2 regularization 은 모델의 overfitting 을 완화하기 위해, 모델의 복잡도에 부여하는 패널티다. 모델의 bias, variance 관점에서는 variance 를 낮추기 위한 방법이다. L1 regularization 은 L2 에 비해 weight 가 0으로 학습될 가능성이 높다. 이런 특징 때문에 L1 regularization 은 feature selection 을 위해 사용되기도 한다. Weight space 관점에서 L1 regularization 를 사용할 때 weight 가 0이 될 가능성이 높은 이유를 살펴볼 수 있다. 그림을 그리기 위해 weight 를 2차원 vector 로 가정해보자. 최적화를 할 때 regularization term 이 $t$ 보다 작을 ..
Bias-Variance Trade-off Bias-variance trade-off 를 이해하기 전에 bias, variance 가 각각 무엇인지 알아야할 것 같다. Bias: target function 에 대한 assumption. Multi-layer perceptron 보다는 linear regression 의 bias 가 훨씬 강하다. Variance: Training data 가 달라질 경우 estimate of target function 이 얼마나 달라지는지를 의미. 모델이 복잡할 수록 training set 의 변화에 대해 estimate of target function 이 많이 달라지게 된다. Bias-variance trade-off 는 모델의 복잡성에 대해 각각 비례, 반비례하는 bias, variance 중 한 쪽을 낮..
Overfitting과 Underfitting Overfitting 은 모델이 training set 의 noise 까지 학습하여 test set 에서의 성능이 하락하는 현상이다. 아래 그림에서 모델링을 하고자 하는 함수는 검은색 선이다. 하지만 sample 이 drawn 될 때에는 noise 가 더해지기 때문에 검은색 경계선 주변에는 파란색, 빨간색 point 가 혼재될 수 있다. 이런 상황에서 모델이 drawn 된 sample 들에 맞춰 과하게 학습되면 아래의 초록색 선과 같이 복잡한 함수가 나오게 된다. 검은색 선을 경계로 앞으로 draw 될 sample 까지 잘 분류하기 위해서는 이미 draw 된 빨간색, 파란색 sample 들만을 가지고 검은색 선에 최대한 가까운 함수를 찾아야 한다. Underfitting 은 overfitting 과 반대..