결측치 처리(결측값 처리)는 머신러닝에서 중요한 단계로, 결측치를 제대로 처리하지 않으면 모델의 성능이 저하되거나 편향된 결과를 초래할 수 있습니다.
1. 제거 방법 (Removal Methods)
1. 행 제거 (Removing Rows)
- 완전 삭제 (Complete Case Analysis): 결측치가 포함된 행을 모두 제거합니다.
- 장점: 쉽고 간단합니다.
- 단점: 많은 데이터를 잃을 수 있습니다. 특히 결측치가 많을 경우 유용한 정보도 함께 삭제됩니다.
1. 열 제거 (Removing Columns)
- 특정 열 제거 (Remove Columns): 결측치가 많이 포함된 열을 제거합니다.
- 장점: 결측치가 많은 특성(Feature)들을 제거함으로써 모델의 단순화를 꾀할 수 있습니다.
- 단점: 중요한 정보를 잃을 수 있습니다.
2. 대체 방법 (Imputation Methods)
2. 평균/중앙값/최빈값 대체 (Mean/Median/Mode Imputation)
- 평균값 대체: 결측치를 해당 열의 평균값으로 대체합니다.
- 중앙값 대체: 결측치를 해당 열의 중앙값으로 대체합니다.
- 최빈값 대체: 결측치를 해당 열의 최빈값으로 대체합니다.
- 장점: 간단하고 빠릅니다.
- 단점: 데이터의 분포를 왜곡시킬 수 있습니다.
2. K-최근접 이웃 대체 (K-Nearest Neighbors Imputation)
- KNN 대체: 결측값을 주변 데이터 포인트(K개의 최근접 이웃)의 값으로 대체합니다.
- 장점: 데이터 분포를 잘 유지할 수 있습니다.
- 단점: 계산 비용이 높을 수 있습니다.
2. 다중 대체법 (Multiple Imputation)
- 다중 대체법: 여러 번 대체를 수행하여 다양한 대체값들을 생성한 후, 이들의 평균값을 사용하는 방법입니다.
- 장점: 불확실성을 반영할 수 있습니다.
- 단점: 복잡하고 시간이 오래 걸립니다.
2. 예측 모델 대체 (Predictive Modeling Imputation)
- 예측 모델 대체: 결측치를 예측하기 위해 머신러닝 모델을 사용합니다. 예를 들어, 회귀나 분류 모델을 사용해 결측값을 예측합니다.
- 장점: 높은 정확도의 대체값을 얻을 수 있습니다.
- 단점: 복잡성과 계산 비용이 높습니다.
3. 특수 기법 (Advanced Techniques)
3. 시계열 데이터의 결측치 처리 (Time Series Data Imputation)
- 전진 채움 (Forward Fill): 이전 값으로 결측치를 채웁니다.
- 후진 채움 (Backward Fill): 이후 값으로 결측치를 채웁니다.
- Interpolation: 선형 보간법이나 다항 보간법을 사용하여 결측치를 대체합니다.
3. 결측치를 하나의 특성으로 취급 (Treating Missing Values as a Separate Category)
- 결측 여부를 하나의 특성으로 추가: 결측치가 있는지 여부를 나타내는 새로운 이진 특성을 추가합니다.
- 장점: 결측치의 패턴을 학습에 반영할 수 있습니다.
- 단점: 데이터의 차원이 늘어나며, 모든 경우에 유효하지 않을 수 있습니다.
'데이터 사이언스 > 캐글' 카테고리의 다른 글
앙상블 기법 (0) | 2024.08.16 |
---|---|
Pandas Dataset 용량 줄이기 (0) | 2024.08.01 |
캐글 데이터 셋 코랩에서 사용하기. kaggle data on colab (0) | 2024.07.16 |
처음 시도하는 캐글 (0) | 2024.07.05 |