2013년 12월 26일 목요일

m-cross validation

m-cross validation: 
m개의 subset으로 나누고, m-1개를 가지고 training, 나머지 1개로 validation
이것을 한번씩 번갈아 가며 수행하고, m번으로 평균을 계산한다.


이것을 하는 목적은, 해당 만들어낸 모델이 얼마나 데이터 셋과 무관하게 얼마나 잘 예측을 할 것인지 평가하기 위한 것이다. Predictive model이 실제 환경에서 얼마나 성능이 좋은지 보고자 하는 것

Overfitting

Overfitting문제

Supervised learning을 통해 만들어진 시스템이 학습 데이터 내에서는 데이터 분류를 매우 잘 하지만, 새로운 데이터에서는 그 분류 성능이 많이 떨어지는 상황을 말한다.

보통 그 이유는 학습을 너무 많이 했거나, 지나친 튜닝을 했거나, 데이터 셋이 편향되어 있거나 등이 있다. 데이터를 가지고 만든 모델과 시스템에서의 오버피팅은 어쩔 수 없는 문제.


따라서 가능한 많은 데이터를 가지고 학습을 하여 unseen data의 범위를 좁히거나, cross validation을 많이 하여 보다 general model을 도출하거나, 여러 개의 model을 가지고 비교하거나 하면된다.