2013년 12월 26일 목요일

Overfitting

Overfitting문제

Supervised learning을 통해 만들어진 시스템이 학습 데이터 내에서는 데이터 분류를 매우 잘 하지만, 새로운 데이터에서는 그 분류 성능이 많이 떨어지는 상황을 말한다.

보통 그 이유는 학습을 너무 많이 했거나, 지나친 튜닝을 했거나, 데이터 셋이 편향되어 있거나 등이 있다. 데이터를 가지고 만든 모델과 시스템에서의 오버피팅은 어쩔 수 없는 문제.


따라서 가능한 많은 데이터를 가지고 학습을 하여 unseen data의 범위를 좁히거나, cross validation을 많이 하여 보다 general model을 도출하거나, 여러 개의 model을 가지고 비교하거나 하면된다.

댓글 없음:

댓글 쓰기