1. 정규성 검정
정규성 검정은 데이터셋의 분포가 정규분포를 따르는지를 검정하는 것입니다. 정규성 검정은 통계학에서 매우 중요한 검정 중 하나입니다. 데이터셋이 정규분포를 따르지 않으면 다른 검정법을 사용해야 합니다. 정규성 검정은 대표적으로 Shapiro-Wilk test, Anderson-Darling test 등이 있습니다.
2. Shapiro-Wilk test
Shapiro-Wilk test는 정규성 검정 중 하나로, 샘플 x1, ..., xn이 정규분포를 따르는 모집단에서 추출되었는지를 검정하는 검정법입니다. 검정 통계량은 다음과 같습니다.
W = ( ∑ i = 1 n a i x ( i ) ) 2 ∑ i = 1 n ( x i − x ¯ ) 2
여기서 xi는 샘플의 i번째 순위 통계량이며, ai는 W의 기대값입니다. Shapiro-Wilk test는 샘플 크기가 작을 때 사용하기 적합한 검정법입니다.
3. Anderson-Darling test
Anderson-Darling test는 주어진 데이터 샘플이 주어진 확률 분포에서 추출되었는지를 검정하는 검정법입니다.
이 검정은 Kolmogorov-Smirnov(K-S) 검정을 수정한 것으로 K-S 검정보다 꼬리 부분에 더 많은 가중치를 둡니다. Anderson-Darling test는 특정 분포에서 파생된 모집단에서 추출된 데이터에 대해 사용됩니다.
4. Shapiro-Wilk test와 Anderson-Darling test의 차이
Shapiro-Wilk test와 Anderson-Darling test는 모두 정규성 검정 중 하나입니다. Shapiro-Wilk test는 샘플 크기가 작을 때 사용하기 적합한 검정법이며, Anderson-Darling test는 특정 분포에서 파생된 모집단에서 추출된 데이터에 대해 사용됩니다. 또한 Shapiro-Wilk test는 Anderson-Darling test보다 더 정확한 검정법입니다.
5. Shapiro-Wilk test와 Anderson-Darling test의 통계량
Shapiro-Wilk test와 Anderson-Darling test의 통계량은 각각 W와 A입니다. Shapiro-Wilk test에서 W는 샘플 크기가 작을 때 사용하기 적합한 검정법이며, Anderson-Darling test에서 A는 특정 분포에서 파생된 모집단에서 추출된 데이터에 대해 사용됩니다.
6. 개념 공부
- 정규분포
정규분포는 통계학에서 가장 중요한 분포 중 하나입니다. 정규분포는 평균과 표준편차에 의해 결정되며, 대부분의 데이터와 평균 주변에 집중되어 있습니다. 이 분포는 중심극한정리와 같은 다른 통계적 개념과 함께 많이 사용됩니다. 정규분포는 많은 통계적 분석에서 기본적인 가정으로 사용되며, 이를 통해 다양한 통계적 추론을 수행할 수 있습니다.
- 중심극한정리
중심극한정리는 매우 불규칙한 분포도 충분히 많은 수를 더하면 결국 정규분포로 수렴한다는 이론입니다. 이 이론은 통계학에서 매우 중요한 개념 중 하나입니다. 예를 들어, 동전을 던지는 경우 앞면이 나올 확률은 0.5이고 뒷면이 나올 확률도 0.5입니다. 동전을 10번 던지면 앞면이 나오는 횟수는 0에서 10까지 모든 값이 가능합니다. 그러나 동전을 1000번 던지면 앞면이 나오는 횟수는 대략적으로 500번 정도가 됩니다. 이것은 중심극한정리에 따라서 발생하는 현상입니다.
- 모집단
모집단(population)은 정보를 얻고자 하는 관심 대상의 전체 집합을 말합니다.
예를 들어 대한민국의 모든 성인 남성의 평균 신장을 알고 싶다면, 모집단은 대한민국의 모든 성인 남성이 됩니다.
- K-S 검정(Kolmogorov-Smirnov test)
K-S 검정은 두 분포가 같은 분포인지 검정하는 방법 중 하나입니다. 이 검정은 두 분포의 누적 분포 함수(CDF)를 비교하여 차이가 있는지 검정합니다. 이 검정은 표본 크기가 크면 정규분포와 같은 분포에서도 사용할 수 있습니다.
- 누적 분포 함수(CDF)
누적 분포 함수는 확률 변수 X가 특정 값보다 작거나 같은 확률을 나타내는 함수입니다. 즉 CDF는 X가 특정 값보다 작거나 같은 확률을 나타내는 함수입니다. 이 함수는 다음과 같이 정의됩니다.
$$F(x) = P(X \leq x)$$
여기서 $P(X \leq x)$는 확률 변수 X가 x보다 작거나 같은 확률을 나타냅니다.
'Python > Study' 카테고리의 다른 글
[Python / Study] 독립표본, 대응표본 t-test 공부하기 (0) | 2023.04.20 |
---|---|
[Python / Study] 비모수적 방법인 맨 - 휘트니 (Mann-Whitney) 검정 (0) | 2023.04.20 |
[Python / Study] 단순확률추출 (simple random sampling) (0) | 2023.04.20 |
[Python / Study] 지도학습과 비지도학습 (0) | 2023.04.20 |
[Python / Study] 층화 표본 추출에 대한 공부 (0) | 2023.04.20 |