The Simple
낙서들
2013년 12월 26일 목요일
m-cross validation
m-cross validation:
m
개의
subset
으로 나누고
, m-1
개를 가지고 training
,
나머지
1
개로
validation
이것을 한번씩 번갈아 가며 수행하고
, m번으로
평균을 계산한다
.
이것을 하는 목적은
,
해당 만들어낸 모델이 얼마나 데이터 셋과 무관하게 얼마나 잘 예측을 할 것인지 평가하기 위한 것이다
. Predictive model
이 실제 환경에서 얼마나 성능이 좋은지 보고자 하는 것
.
Overfitting
Overfitting
문제
:
Supervised learning
을 통해 만들어진 시스템이 학습 데이터 내에서는 데이터 분류를 매우 잘 하지만
,
새로운 데이터에서는 그 분류 성능이 많이 떨어지는 상황을 말한다
.
보통 그 이유는 학습을 너무 많이 했거나
,
지나친 튜닝을 했거나
,
데이터 셋이 편향되어 있거나 등이 있다
.
데이터를 가지고 만든 모델과 시스템에서의 오버피팅은 어쩔 수 없는 문제
.
따라서 가능한 많은 데이터를 가지고 학습을 하여
unseen data
의 범위를 좁히거나
, cross validation
을 많이 하여 보다
general model
을 도출하거나
,
여러 개의
model
을 가지고 비교하거나 하면된다
.
최근 게시물
이전 게시물
홈
피드 구독하기:
글 (Atom)