캐글에 실제로 도전해 보는건 처음이다.

도전하려고 하는 것은 이 문제 이며, 간단한(?) classification으로 보여서 해보려고 한다.

(나중에 알았지만 이 문제는 예측할때 여러 class를 동시에 낼 수 있는 multi-class문제여서 생각보다는 복잡했다.)


환경설정

캐글에 로그인한 다음 competition에 join하고 new kernel하면 ipython notebook 환경으로 들어갈 수가 있다.

이 글에 사용된 kernel은 여기를 눌러서 확인

실행하면 위처럼 input 파일에 대한 정보를 볼 수 있도록 미리 작성된 코드가 있다.

데이터 둘러보기

train data 열어서 처음 5줄 살펴보고, 컬럼들 어떻게 생겼는지, 총 몇 row, 몇 column 인지 살펴보기



간단한 알고리즘 돌려보기

input, output 분리하고,
data pre-processing 해주고,


간단한 10fold cross validation 알고리즘을 통한 성능 확인하기(train data only)

제출하기


test data를 사용해서 prediction을 만들고 (test data에는 label이 없다),
제공된 sampleSubmission.csv를 변형하여 임의의 csv로 저장하고 (내 경우는 submit.csv로 함)

(위에서 csv로 저장할때 index=False를 꼭해야함. 안그러면 맨 왼쪽에 원치않는 컬럼이 하나 더 들어감)


상단에 있는 commit 누르고, 하단에 저장한 submit.csv를 제출하기 누르면 채점 해주는 구조



제출하고 나면 아래처럼 결과를 보여줌



반응형

+ Recent posts