캐글에서 GPU를 다 써서 코랩에서 코드 실험이 필요했습니다.
이에 캐글데이터를 코랩에서 사용하는 방법을 포스팅합니다.
해당 포스팅은 24년 7월이므로 이후 UI가 변경되었을 가능성도 있습니다.
1. 캐글 오른쪽 위에 자신의 프로필을 클릭합니다.
2. Setting에 들어갑니다.
3. 중간 즈음 있는 API란에서 Create New Token을 통해 캐글 Json 파일을 받습니다.
{"user" : xxxxxx , "key" : xxxxxx}
이런 형식의 Json 파일이 다운받아질 겁니다.
4. 복사하고자하는 대회에 들어가서 Data 탭에 들어갑니다.
5. 가장 아래에있는 API 스크립 코드가 있습니다.
저희는 이를 복사하여 사용할 것입니다. ( 오른쪽 복사버튼 활용 )
6. 이제 코랩에 가서 캐글을 설치해줍니다.
!pip install kaggle
7. 토큰 파일을 업로드합니다.
from google.colab import files
files.upload()
해당 코드를 실행하면 다음과 같이 파일을 추가할 수 있습니다. 사실 그냥 파일을 추가해도 상관없습니다.
( 파일 선택을 눌러서 파일 업로드 )
8. 해당 파일을 통해 권한을 할당합니다.
# Make a directory named kaggle and copy the kaggle. json file there
!mkdir ~/.kaggle
!cp kaggle.json ~/.kaggle/
# change the permission of the file
!chmod 600 ~/.kaggle/kaggle.json
9. 5번에서 복사한 스크립코드를 실행합니다.
!kaggle competitions download -c playground-series-s4e7
10. 다운 받은 데이터 셋(zip 파일)압축을 풉니다.
from zipfile import ZipFile
file_name = "/content/playground-series-s4e7.zip"
with ZipFile(file_name, 'r') as zip:
zip.extractall()
print('done')
11. 데이터셋을 이용합니다.
import pandas as pd
# 데이터 읽기
train = pd.read_csv('./train.csv', index_col='id')
test = pd.read_csv('./test.csv', index_col='id')
'데이터 사이언스 > 캐글' 카테고리의 다른 글
결측치를 처리하는 방법 (0) | 2024.08.16 |
---|---|
앙상블 기법 (0) | 2024.08.16 |
Pandas Dataset 용량 줄이기 (0) | 2024.08.01 |
처음 시도하는 캐글 (0) | 2024.07.05 |