결측치를 처리하는 방법
·
데이터 사이언스/캐글
결측치 처리(결측값 처리)는 머신러닝에서 중요한 단계로, 결측치를 제대로 처리하지 않으면 모델의 성능이 저하되거나 편향된 결과를 초래할 수 있습니다.1. 제거 방법 (Removal Methods)1. 행 제거 (Removing Rows)완전 삭제 (Complete Case Analysis): 결측치가 포함된 행을 모두 제거합니다.장점: 쉽고 간단합니다.단점: 많은 데이터를 잃을 수 있습니다. 특히 결측치가 많을 경우 유용한 정보도 함께 삭제됩니다.1. 열 제거 (Removing Columns)특정 열 제거 (Remove Columns): 결측치가 많이 포함된 열을 제거합니다.장점: 결측치가 많은 특성(Feature)들을 제거함으로써 모델의 단순화를 꾀할 수 있습니다.단점: 중요한 정보를 잃을 수 있습니다..
앙상블 기법
·
데이터 사이언스/캐글
이번에 참여한 캐글에서 상위권 인원이 사용한 기법이 스태킹 기법이였습니다.저는 원래 앙상블 기법으로 배깅, 부스팅, 보팅 이렇게 세 가지만 알고있었는데, 새로운 앙상블 기법을 보자 생소했습니다.이에 앙상블에대해 간략히 학습하고 스태킹에대해 알아보았습니다.  앙상블이란?앙상블(Ensemble) 학습은 여러 개의 모델(개별 학습기)을 결합하여 예측 성능을 향상시키는 기법입니다. 개별 모델들이 서로 다른 특성과 약점을 가지고 있기 때문에, 이들을 결합하면 단일 모델보다 더 안정적이고 성능이 높은 예측 결과를 얻을 수 있습니다. 앙상블 학습은 머신 러닝에서 중요한 기법으로, 다양한 분야에서 널리 사용되고 있습니다.앙상블의 주요 기법배깅(Bagging, Bootstrap Aggregating):여러 개의 학습 데..
범주형 데이터를 처리하는 방법 ( 카테고리 데이터 )
·
데이터 사이언스
서론 데이터에는 크게 두가지 데이터가 있습니다. 1. 범주형 데이터 [ 순서형, 명목형 ] 2. 연속형 데이터[ 연속형, 이산형 ] 머신러닝 모델은 문자 데이터를 인식하지 못하므로 문자로 구성된 범주형은 숫자로 바꿔줘야합니다. 관련된 기법을 간단히 보겠습니다. 1. 레이블 인코딩 (Label Encoding)각 카테고리 값을 고유한 정수로 변환합니다. 예를 들어, "사과", "바나나", "체리"가 있으면 각각을 0, 1, 2로 변환합니다.from sklearn.preprocessing import LabelEncoderlabel_encoder = LabelEncoder()data['Category'] = label_encoder.fit_transform(data['Category']) 개념:레이블 인코딩..
Pandas Dataset 용량 줄이기
·
데이터 사이언스/캐글
이번 캐글 대회를 참여하며 데이터로 많이 고생을 했다. 자꾸 뭐만 하면 터지는게 너무 속상했는데............. 아마 분명 처음으로 캐글에 참여해보다 보니 코드 효율성이 부족해서 그런거라 생각한다. 그러던 중 매우 유용한 코드를 하나 발견했다. # Reduce Memory Usage# reference : https://www.kaggle.com/code/arjanso/reducing-dataframe-memory-size-by-65 @ARJANGROENdef reduce_memory_usage(df): start_mem = df.memory_usage().sum() / 1024**2 print('Memory usage of dataframe is {:.2f} MB'.format..
캐글 데이터 셋 코랩에서 사용하기. kaggle data on colab
·
데이터 사이언스/캐글
캐글에서 GPU를 다 써서 코랩에서 코드 실험이 필요했습니다.이에 캐글데이터를 코랩에서 사용하는 방법을 포스팅합니다. 해당 포스팅은 24년 7월이므로 이후 UI가 변경되었을 가능성도 있습니다.  1. 캐글 오른쪽 위에 자신의 프로필을 클릭합니다. 2. Setting에 들어갑니다. 3. 중간 즈음 있는 API란에서 Create New Token을 통해 캐글 Json 파일을 받습니다. {"user" : xxxxxx , "key" : xxxxxx} 이런 형식의 Json 파일이 다운받아질 겁니다.   4. 복사하고자하는 대회에 들어가서 Data 탭에 들어갑니다.  5. 가장 아래에있는 API 스크립 코드가 있습니다. 저희는 이를 복사하여 사용할 것입니다. ( 오른쪽 복사버튼 활용 ) 6. 이제 코랩에 가서 캐..
처음 시도하는 캐글
·
데이터 사이언스/캐글
이번에 구글 머신러닝 부트캠프를 진행 하며, 처음으로 머신러닝 및 데이터 사이언스 커뮤니티를 접하였습니다.   단순히 머신러닝 개념만 있고 실질적인 데이터 경험이 없는 저로서는 어떻게 시작해야할지 막연하고 고민이 많았는데,이번에 시작하며 얻은 여러 정보 및 자료들을 정리해두고자 합니다.처음 시작하는 캐글인 만큼 혹여나 다른 추가적인 좋은 자료가 있다면 많이 공유해주시면 감사할 것 같습니다! 0. 구글 머신러닝 인원의 캐글 입문서https://jun048098.tistory.com/18다음의 질문에 도움을 드릴 수 있습니다. Featured, playground가 뭔가요? Kaggle은 GPU가 되나요? 로컬에서 작성한 노트북이나 csv파일도 올릴 수 있나요? 저장과 제출 어떻게 하죠?  Save & Ru..
포카칩인심
'데이터 사이언스' 카테고리의 글 목록