과제1 - 타이타닉 데이터셋 구성 다시하기

문제

타이타닉 데이터셋 구성 다시하기

타이타닉 데이터는 891개가 주어집니다. 이중 75%를 훈련용으로 사용하고 25%를 validation 용으로 사용하였습니다. 즉 모델은 891개의 75%인 668개만을 학습한 상태로 Kaggle의 제출됩니다.

이번 과제는 25%로 빼둔 validation set도 학습에 이용하는 입니다. 이미 validatoin이 끝났고 최종 모델이 확정되었으니 제출 전 모든 데이터를 이용해 학습하겠다는 아이디어입니다. 단지 200여개를 추가로 학습하는 것만으로도 모델의 성능이 크게 높아집니다. 데이터셋의 양이 매우 많다면 그렇게 하지 않아도 괜찮습니다.

challenge2를 복사한 이어서 진행합니다. challenge2를 진행하지 못했다면 이번주의 stage1 혹은 지난주의 stage3를 복사하여 사용합니다.

방법

다음 단계를 따라 과제를 진행하세요.

[단계1] Challenge2 파일을 복사한 후 실행합니다. (파일이름은 homework1로 설정합니다)

[단계2] Kaggle에 제출가능한 csv 파일을 만들 수 있는지 확인합니다. 잘 작동한다면 제출하고 점수를 확인하세요.

[단계3] training set(x_test), validation set(x_valid)를 합친데이터가 무엇인지 파악합니다.

[단계4] 모델을 새로 만들어 전체 데이터를 가지고 다시 학습시킵니다.

[단계5] Kaggle에 제출하여 종전의 얻은 점수와 비교해보세요.

[단계6] 모범답안과 비교하세요!