확증적 데이터 분석 (CDA)
가설을 설정한 후 수집한 데이터로 가설을 평가하고 추정하는 전통적인 분석 방법.
재현성, 유의성 검정, 신뢰구간 추정 등의 통계적 추론을 이용.
탐색적 데이터 분석 (EDA)
데이터를 가지고 여러 방향으로 데이터를 탐색하고, 데이터의 특징과 구조로부터 얻은 정보를 바탕으로 통계모형을 만드는 분석 방법
-------
확증적 데이터 분석(Confirmatory Data Analysis, CDA)과 탐색적 데이터 분석(Exploratory Data Analysis, EDA)은 데이터 분석의 두 가지 주요 접근 방식으로, 각각의 목적과 방법론이 다릅니다.
1. 탐색적 데이터 분석 (Exploratory Data Analysis, EDA)
탐색적 데이터 분석(EDA)은 데이터가 가지고 있는 특징을 직관적으로 이해하고 패턴을 파악하기 위한 분석 기법입니다.
이 접근법은 보통 데이터 분석의 초기 단계에서 활용되며, 연구자가 미리 가설을 세우지 않고 데이터를 자유롭게 살펴보는 과정입니다.
특징
- 가설이 없는 상태에서 데이터 탐색: 사전에 특정한 가설을 검증하는 것이 아니라, 데이터를 살펴보면서 흥미로운 패턴을 발견하는 것이 목표입니다.
- 데이터의 분포와 관계 파악: 변수 간의 관계, 이상치(outlier), 결측치(missing value) 등을 파악하여 데이터를 정제하는 과정이 포함됩니다.
- 시각적 기법 활용: 데이터의 패턴을 직관적으로 이해하기 위해 히스토그램, 박스플롯, 산점도, 히트맵 등의 시각화를 적극적으로 활용합니다.
- 요약 통계 사용: 평균(mean), 중앙값(median), 표준 편차(std), 사분위수(quartile) 등 기본적인 통계량을 분석하여 데이터의 특징을 이해합니다.
예제
예를 들어, 고객의 연령과 제품 구매 금액이 저장된 데이터가 있다고 가정해 봅시다.
EDA를 수행하면 다음과 같은 분석이 가능합니다.
- 연령별 구매 금액의 평균과 분포를 히스토그램으로 분석
- 구매 금액이 비정상적으로 높은 이상치를 확인
- 연령과 구매 금액 간의 관계를 산점도를 이용해 시각적으로 탐색
- 데이터에 결측치가 존재하는지 확인하고 처리 방안을 고려
EDA를 통해 "젊은 고객일수록 구매 금액이 높을 가능성이 있다"라는 가설을 세울 수 있습니다.
이후, 이를 통계적으로 검증하는 단계가 **확증적 데이터 분석(CDA)**입니다.
2. 확증적 데이터 분석 (Confirmatory Data Analysis, CDA)
확증적 데이터 분석(CDA)은 사전에 설정된 가설을 검증하기 위한 분석 방법입니다.
EDA에서 발견한 패턴이나 기존 연구에서 제시된 가설이 통계적으로 유의미한지 검증하는 과정에서 사용됩니다.
특징
- 명확한 가설이 존재: 분석을 수행하기 전에 ‘귀무가설(null hypothesis)’과 ‘대립가설(alternative hypothesis)’을 설정해야 합니다.
- 통계적 검정 방법 활용: t-검정(t-test), 카이제곱 검정(Chi-square test), ANOVA, 회귀 분석 등의 기법을 이용해 가설을 검증합니다.
- 유의수준 설정: 보통 5% (p-value < 0.05)를 기준으로 가설이 기각되는지를 판단합니다.
- 일반화 가능성 고려: 분석 결과가 표본(sample)에서 관찰된 것이 아니라 모집단(population)에서도 동일한 경향을 보이는지 평가합니다.
예제
EDA에서 "젊은 고객일수록 구매 금액이 높다"라는 가설을 세웠다면, CDA에서는 이를 통계적으로 검증할 수 있습니다.
- 귀무가설(H₀): 연령과 구매 금액 사이에는 차이가 없다.
- 대립가설(H₁): 연령이 낮을수록 구매 금액이 유의미하게 높다.
이 가설을 검증하기 위해 회귀 분석(Regression Analysis) 또는 t-검정(T-test) 같은 방법을 사용할 수 있습니다.
만약 분석 결과에서 p-value가 0.05보다 작다면, 귀무가설을 기각하고 "젊은 고객일수록 구매 금액이 높다"는 대립가설을 채택할 수 있습니다.
3. EDA와 CDA의 차이점 정리
구분탐색적 데이터 분석 (EDA)확증적 데이터 분석 (CDA)
목적 | 데이터의 패턴, 이상치 탐색 및 관계 파악 | 사전에 정해진 가설을 검증 |
접근 방식 | 직관적 탐색, 시각적 분석 | 통계적 검정, 모델 평가 |
가설의 유무 | 없음 (가설을 발견하는 과정) | 있음 (사전 가설을 검증) |
사용 기법 | 시각화(히스토그램, 박스플롯, 산점도), 요약 통계 | t-검정, ANOVA, 회귀 분석, p-value |
활용 시점 | 데이터 분석의 초반 단계 | 분석의 후반, 연구 결과 검증 단계 |
예시 | 고객 연령과 구매 금액의 관계를 시각적으로 탐색 | 연령이 구매 금액에 영향을 주는지 통계적으로 검증 |
4. EDA와 CDA의 관계
EDA와 CDA는 상반되는 개념이 아니라 서로 보완적인 역할을 합니다.
- EDA를 통해 데이터의 패턴을 탐색하고 가설을 설정 →
- CDA를 이용해 설정한 가설이 통계적으로 유의미한지 검증
예를 들어, 금융 데이터에서 고객의 신용 점수와 대출 승인률을 분석한다고 가정해 봅시다.
- EDA 단계에서는 신용 점수가 높은 사람이 대출 승인을 받을 가능성이 더 높아 보인다는 패턴을 발견할 수 있습니다.
- CDA 단계에서는 로지스틱 회귀(Logistic Regression) 모델을 사용하여 신용 점수가 대출 승인 여부에 미치는 영향을 통계적으로 검증할 수 있습니다.
즉, EDA는 새로운 가설을 생성하는 도구, CDA는 가설이 통계적으로 의미 있는지 평가하는 도구라고 볼 수 있습니다.
이 두 접근 방식을 잘 활용하면 데이터 분석의 정확성과 신뢰성을 높일 수 있습니다.
------
좀 더 쉽게 정리된 블로그 :
'공부 정리 > 면접 준비' 카테고리의 다른 글
간단 선형대수 용어 정리 (0) | 2025.02.26 |
---|---|
LangGraph 기본 개념 (0) | 2025.02.26 |
[ 디자인패턴 ] IoC와 DI (0) | 2025.01.06 |
[C#] LINQ의 지연 실행에 대해 (0) | 2025.01.06 |
[ 네트워크 ] 3-way handshake, 4-way handshake 과정을 설명해 보세요. (0) | 2023.05.10 |