반응형

Google Colab은 브라우저에서 Python 노트북을 실행하면서 파일 업로드, 다운로드, GitHub 데이터 접근을 함께 처리할 수 있는 환경이다.

Colab에서 파일을 다룰 때는 런타임의 임시 저장소, Google Drive 마운트, GitHub 원본 URL, 로컬 다운로드 방식이 서로 다르다는 점을 먼저 구분해야 한다.

 

핵심 정리

Colab 파일 작업은 현재 런타임 안에 있는 파일, Google Drive에 연결한 파일, GitHub에서 내려받은 파일을 구분하는 것이 핵심이다. 런타임이 초기화되면 로컬 작업 파일은 사라질 수 있으므로 필요한 결과물은 다운로드하거나 Drive에 저장해야 한다.

  • Colab 런타임의 작업 디렉터리는 임시 공간이라 세션이 끝나면 사라질 수 있다.
  • files.download는 생성한 결과 파일을 로컬 PC로 받을 때 사용한다.
  • Google Drive를 마운트하면 노트북에서 Drive 파일을 경로로 접근할 수 있다.
  • GitHub 파일은 raw URL이나 저장소 clone 방식으로 가져올 수 있다.
  • 데이터 경로가 바뀌면 노트북 실행 위치와 현재 작업 디렉터리를 먼저 확인해야 한다.

Colab에서 파일 문제가 생기면 다운로드 명령보다 먼저 그 파일이 런타임, Drive, GitHub 중 어디에 있는지 확인하는 편이 안전하다.

Google colab은 Jupyter ipython notebook과 같은 python code를 온라인에서 공유하면서 작성할 수 있게 해준다.

더구나 GPU도 쓸 수 있고 속도도 빠른편이며 sklearn, prophet등 ML관련 library들도 대부분 미리 설치되어 있다.

팁1: 인터넷에 있는 파일을 바로 다운받아서 데이터로 쓰기

ML을 하다보면 데이터가 생명인데, 매번 클릭해서 다운받으면 번거롭기 때문에 wget으로 바로 받으면 공유하기도 좋고 편하다.

공개적으로 올려진 파일의 경우 다음처럼 wget으로 쉽게 받을 수 있다. 

위 파일처럼 압축된 경우에도 다음처럼 zipfile 을 import하여 풀 수 있다.

팁2: github에 있는 파일 받기

github에 올려져 있는 파일의 경우 git clone을 하지 않고 wget만으로는 받기 힘든데.. 다음처럼 raw.으로 시작하는 주소로 바꾸고 약간만 조심하면 바로 받을 수 있다.

주소를 바꾸는 규칙에 대해서는 여기를 참조하라.

요즘에는 그냥 git clone 되는거 같다.

반응형

+ Recent posts