타이타닉 데이터는 총 891개가 주어집니다. 이중 75%를 훈련용으로 사용하고 25%를 validation 용으로 사용하였습니다. 즉 모델은 891개의 75%인 668개만을 학습한 상태로 Kaggle의 제출됩니다.
이번 과제는 25%로 빼둔 validation set도 학습에 이용하는 것 입니다. 이미 validatoin이 끝났고 최종 모델이 확정되었으니 제출 전 모든 데이터를 이용해 학습하겠다는 아이디어입니다. 단지 200여개를 추가로 학습하는 것만으로도 모델의 성능이 크게 높아집니다. 데이터셋의 양이 매우 많다면 그렇게 하지 않아도 괜찮습니다.
challenge2를 복사한 후 이어서 진행합니다. challenge2를 진행하지 못했다면 이번주의 stage1 혹은 지난주의 stage3를 복사하여 사용합니다.
[단계1] Challenge2 파일을 복사한 후 실행합니다. (파일이름은 homework1로 설정합니다)
[단계2] Kaggle에 제출가능한 csv 파일을 만들 수 있는지 확인합니다. 잘 작동한다면 제출하고 점수를 확인하세요.
[단계3] training set(x_test), validation set(x_valid)를 합친데이터가 무엇인지 파악합니다.
[단계4] 모델을 새로 만들어 전체 데이터를 가지고 다시 학습시킵니다.
[단계5] Kaggle에 제출하여 종전의 얻은 점수와 비교해보세요.
[단계6] 모범답안과 비교하세요!