모든 데이터를 8:2로 나누고 8 부분을 다시 8:2로 나누어, training set, validation set, test set을 구성하겠습니다. 보유하고 있는 데이터는 총 21,613개입니다.
training set만으로 여러 종류의 모델을 학습하고 validation set으로 각 모델의 성능을 측정할 예정입니다. test set은 건드리지 않습니다.
최종적으로 21,613개 중 64%를 Training set으로, 16%를 Validation set으로 남은 20%를 Test set으로 구성하였습니다. train set 13,832개, valid set 3,458개, test set 4,323개
우리는 현재 모든 데이터를 house_data라는 변수에 가지고 있습니다. 위와 같은 계획에 따라 데이터를 나눠주려고 할 때 다음과 같은 3단계를 거쳐야 합니다.
훈련용 특징 부분과 정답부분(레이블)로 나누기 train_data와 target_data로 나눠집니다.
80%를 training set으로 나머지 20%를 test set으로 나눠줍니다. training set(x_train, y_train)과 test set(x_test, y_test)로 나눠집니다.
training set을 다시 8:2로 나누어 training set과 validation set을 구성합니다. training set(x_train, y_train)과 validation set(x_valid, y_valid)로 나눠지며 최종적으로 training set, validation set, test set을 가지게 됩니다.
조금 더 쉽게 살펴볼까요?
이 도표를 이해하시면 실습이 매우 쉬워집니다. 특히 x는 훈련용 특징 부분의 데이터, y는 정답부분(레이블)을 가리킨다는 것도 기억해주세요!
생각해보기 “함께실습$2보다 좋은 모델이라고 볼 수 있나요?”