전체 글

My dream is to become a GrandMaster
Python/Study

[Python / Study] 독립표본, 대응표본 t-test 공부하기

1. 대응표본 대응표본이란 같은 대상에 대해 두 번의 측정을 한 후 두 측정치의 평균이 차이가 있는지 비교하는 통계적 방법입니다. 예를 들면 처치나 중재, 약물, 교육, 치료 등의 효과를 알아보기 위해 측정하기 전과 후의 체중, 머리카락 수, 점수, 통증 등을 비교하는 경우가 있습니다. 2. 대응표본 t 검정 대응표본 t 검정은 두 집단의 평균 차이를 검정하는 방법 중 하나입니다. 대응표본 t 검정은 두 집단의 데이터가 서로 대응되는 경우에 사용합니다. 예를 들어 동일한 사람들의 전후 측정치를 비교할 때 사용합니다. 대응표본 t 검정은 두 집단의 차이가 정규분포를 따르는 경우에 사용할 수 있습니다. 3. 대응표본 t 검정은 언제 사용할까? 대응표본 t 검정은 두 개의 관측치가 서로 대응되는 경우에 사용합..

Python/Study

[Python / Study] 비모수적 방법인 맨 - 휘트니 (Mann-Whitney) 검정

1. 맨 - 휘트니 검정 비모수적 방법으로 두 집단의 중앙값을 비교하는 방법 중 하나는 맨-휘트니 검정입니다. 이 검정은 독립표본 t검정과 대응표본 t검정과 달리 모집단의 분포에 대한 가정이 필요하지 않으며, 정규분포를 따르지 않는 자료에 대해서도 적용할 수 있습니다. 또한 두 집단의 분산이 같지 않은 경우에도 적용할 수 있습니다. 2. 수행 방법 맨-휘트니 검정은 두 집단의 중앙값 비교를 위한 비모수 검정 방법 중 하나입니다. 이 검정 방법은 두 집단의 순위 합계로부터 U값을 계산하여 검정하는 방법입니다. 이 검정 방법은 SPSS와 같은 통계 프로그램에서도 사용할 수 있습니다. - U값은 두 집단의 순위 합계 중 작은 값에 대응하는 값입니다. U값은 두 집단이 동일한 분포를 가지고 있다는 귀무가설을 검..

Python/Study

[Python / Study] 정규성 검정에 대해 알아보기

1. 정규성 검정 정규성 검정은 데이터셋의 분포가 정규분포를 따르는지를 검정하는 것입니다. 정규성 검정은 통계학에서 매우 중요한 검정 중 하나입니다. 데이터셋이 정규분포를 따르지 않으면 다른 검정법을 사용해야 합니다. 정규성 검정은 대표적으로 Shapiro-Wilk test, Anderson-Darling test 등이 있습니다. 2. Shapiro-Wilk test Shapiro-Wilk test는 정규성 검정 중 하나로, 샘플 x1, ..., xn이 정규분포를 따르는 모집단에서 추출되었는지를 검정하는 검정법입니다. 검정 통계량은 다음과 같습니다. W = ( ∑ i = 1 n a i x ( i ) ) 2 ∑ i = 1 n ( x i − x ¯ ) 2 여기서 xi는 샘플의 i번째 순위 통계량이며, ai는..

Python/Study

[Python / Study] 단순확률추출 (simple random sampling)

1. 단순 확률 추출 단순확률추출법은 모집단에서 무작위로 표본을 추출하는 방법 중 하나입니다. 이 방법은 모집단의 모든 항목이 동일한 확률로 표본에 포함될 수 있습니다. 이 방법은 모집단의 크기가 작을 때 가장 적합합니다. 반대로 말하면 모집단의 크기가 클 때는 비효율적일 수 있습니다. 모집단에서 무작위로 표본을 추출하므로 추출된 표본이 모집단을 대표할 가능성이 높습니다.. 단순확률추출은 모집단 (population)의 각각의 요소 또는 사례들이 표본 (sample)으로 선택될 가능성이 같게 되는 표본 추출 방법입니다. 유한모집단에서 n개의 추출단위로 구성된 모든 부분집합들이 표본으로 선택될 확률이 같도록 설계된 표본추출방법을 뜻합니다. 확률적인 방법으로 표본을 추출하는 것을 확률표본추출이라고 합니다. ..

Python/Study

[Python / Study] 지도학습과 비지도학습

1. 지도학습 지도학습은 정답이 있는 데이터를 활용해 데이터를 학습시키는 것입니다. 입력 값 (X data)이 주어지면 입력 값에 대한 Label (Y data)를 주어 학습시키며 대표적으로 분류, 회귀가 있습니다. 분류는 입력 데이터를 미리 정의된 여러 클래스 중 하나로 할당하는 문제입니다. 예를 들어, 스팸 메일 분류 문제는 이메일을 스팸 또는 스팸이 아닌 것으로 분류하는 것입니다. 회귀는 입력 데이터와 출력 데이터 간의 관계를 모델링하는 문제입니다. 예를 들어 집의 크기와 가격 사이의 관계를 모델링하는 것입니다. 2. 비지도학습 비지도학습은 정답이 없는 데이터를 학습시키는 것입니다. 입력 데이터만 주어지며, 이를 이용해 데이터의 구조나 패턴을 찾아내는 것입니다. 대표적인 예로는 군집화와 차원 축소가..

Python/Study

[Python / Study] 층화 표본 추출에 대한 공부

1. 층화 표본 추출이란? 층화 표본 추출은 모집단을 서로 겹치지 않는 그룹들, 즉 층들로 나누고 각 층으로부터 표본을 단순확률추출법으로 뽑는 방법입니다. 이 때 얻어진 표본을 층화확률표본이라고 합니다. 주어진 비용 하에서 정보의 양을 증가시켜주는 추출법입니다. 이 방법은 모집단의 특성에 따라 층화하여 추출하면 표본의 분산을 줄일 수 있어서 추정량의 정확도를 높일 수 있습니다. 예를 들어, 대학에서 학생들을 대상으로 여론조사를 할 경우, 학생들을 학년이나 거주지별로 층화 조사하는 것이 효율적입니다. 2. 예시 학교에서 학생들의 성적을 조사하는 경우가 있습니다. 이 경우 학생들은 성적에 따라 여러 그룹으로 나눌 수 있습니다. 예를 들어, A그룹은 90 - 100점을 받은 학생들, B 그룹은 80 - 89점..

Python/Study

[Python / Study] 데이터 전처리 연습하기

1. 라이브러리 설치 및 데이터 불러오기 from google.colab import drive drive.mount('/content/drive') 드라이브를 마운트합니다. import pandas as pd train = pd.read_csv(DATA_PATH + "train.csv") train.head() pandas 라이브러리를 설치합니다. DATA_PATH에 데이터 경로를 저장한 이후 train.csv 파일을 불러옵니다. head()로 상위 5개 행만 불러왔습니다. train.info() # 데이터 타입 / 컬럼명 확인 / 결측치 확인 그리고 train 데이터의 타입과 컬럼명, 결측치를 확인합니다. # test 데이터 불러오기 test = pd.read_csv(DATA_PATH + "test...

Python/Baekjoon

[Python / Baekjoon] 6단계 심화 1 # 2444 별 찍기 -7 백준 알고리즘 문제 풀이

1. 2444 별 찍기 -7 문제 https://www.acmicpc.net/problem/2444 2444번: 별 찍기 - 7 첫째 줄부터 2×N-1번째 줄까지 차례대로 별을 출력한다. www.acmicpc.net 백준 2444번 별 찍기 문제입니다. 전에도 별 찍는 문제를 풀었었는데 이번 문제는 제 수준에선 많이 어려웠습니다. 거의 2시간을 혼자 고민했었네요. 숫자가 주어지면 다이아몬드 형식으로 별을 찍는 문제입니다. 2. 풀이 과정 먼저 맨 처음 작성했던 코드를 보겠습니다. 코드 N = int(input()) B = [] for i in range(1, N * 2, 2): star = '*' * i B.append(star) # 별 추가 for i in range(len(B)): print(B[i]..

Python/Study

[Python / Study] plotly 사용하여 시각화 연습 (3)

1. 라이브러리 설치 및 데이터 불러오기 코드 import pandas as pd print(pd.__version__) sales = pd.read_csv(DATA_PATH + 'raw_sales.csv', parse_dates = ['datesold']) sales.head() pandas 라이브러리를 설치하고 버전을 확인합니다. pandas 버전은 1.5.3 입니다. raw_sales.csv 파일을 불러와서 sales 변수에 저장합니다. datesold 열은 데이터를 날짜 형식으로 파싱하였습니다. 출력 데이터를 불러와서 5개 열만 출력했습니다. 2. 데이터 전처리 코드 sales['year'] = sales['datesold'].dt.year # 연도 열 생성 sales['month'] = sale..

Python/Study

[Python / Study] plotly 사용하여 시각화 연습 (2)

1. 라이브러리 설치 및 데이터 로드 코드 import pandas as pd print(pd.__version__) pandas를 설치하고 버전을 확인합니다. pandas 버전은 1.5.3 버전입니다. 코드 sales = pd.read_csv(DATA_PATH + 'raw_sales.csv', parse_dates = ['datesold']) # datesold를 날짜 형식으로 파싱 sales.head() raw_sales.csv 데이터를 불러와서 sales란 변수에 저장합니다. - parse_dates = ['datesold'] : datesold 열을 날짜 형식으로 파싱합니다. 출력 sales.head()로 5개 행만 출력했습니다. 코드 sales.info() 데이터 정보를 확인하기 위해 info(..

Sukyung Jang
미숙한 개발자