Notice
Recent Posts
Recent Comments
Link
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

Alchemist

[R studio - 11 ] 통계 분석 기법을 이용한 가설 검정 본문

R-coding

[R studio - 11 ] 통계 분석 기법을 이용한 가설 검정

Alchemist__ 2019. 5. 31. 17:40

z기술 통계 : 데이터를 요약해 설명하는 통계 기법

추론 통계 : 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법

통계적 가설 검정 : 유의확률을 이용해 가설을 검정하는 방법

(유의 확률 : 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률)

 

t 검정 : 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼때 사용하는 통계 분석 기법

(r에 내장된 t.test()를 이용해 t 검정이 가능하다.)

 

ggplot2 패키지의 mpg 데이터를 이용해 t 검정을 수행해보자.

소형차와 SUV가 도시 연비에서 통계적으로 유의한 차이가 있는지 알아보자.

 

1. mpg 데이터에서 class,cty 변수만 남긴 뒤 class$compact와 class$suv인 자동차를 추출한다.

(+ head()와 table()로 데이터를 미리 확인한다.)

 

2.t.test()를 이용해 t 검정을 실시한다. 앞에서 추출한 mpg_diff 데이터를 지정하고, ~ 기호를 이용해 비교할 값인 cty와 비교할 집단인 class 변수를 지정한다.

(집단 간 분산이 같다고 가정 하고 var.equal에 T를 지정한다.)

출력된 t 검정 결과에서 p-value는 유의확률이다. ( 일반적으로 0.05 )

sample estimates를 보면 각 집단의 cty 평균이 나온다.

compact : 20.12766 , suv " 13.50000 이므로 

compact > suv

활용_1 : 일반 휘발유와 고급 휘발유의 도시 연비 t 검정

CODE

 

table

 

RESULT

 

sample estimates : 17.36538 > 16.73810

하지만 p-value : 0.2875( 실제로는 차이가 없으나 우연에 의해 이런 차이가 관찰 될 확률이 28.75%)

즉 : 통계적으로 유의하지 않다.

 

상관분석 : 두 연속 변수가 서로 관련이 있는지 검정하는 통계 분석 기법

ggplot2 패키지의 economics 데이터를 이용해 unemploy와 pce간에 통계적으로 유의한 상관관계가 있는지 알아보겠다.

R에 내장된 cor.test()를 사용해 상관분석을 할 수 있다.

상관계수는 0~1 사이의 값을 지니고, 1에 가까울수록 관련성이 크다.

상관계수가 양수면 정비례 , 음수면 반비례 관계이다.

 

실업자 수와 개인 소비 지출의 상관관계

 

 

p-value0.05 미만이므로 실업자 수와 개인 소비 지출 상관이 통계적으로 유의하다.

cor이 상관계수를 의미한다. 상관계수가 0.61 이므로 정비례 관계임을 알 수 있다.

 

상관행렬 히트맵 만들기

여러 변수의 관련성을 한번에 알아보고자 할 경우 모든 변수의 상관관계를 나타낸 상관행렬을 만든다.

R에 내장된 mtcars 데이터를 이용해 상관행렬을 만들어 보자. + cor()을 이용해 상관행렬을 만들 수 있다.

 

(rount(car_cor,2) = 소숫점 셋째 자리에서 반올림해 출력.)

mpg행과 cyl 열이 교차되는 부분을 보면 상관계수가 -0.85 이므로 연비가 높을수록 실린더 수가 적은 경향이 있다는 것을 알 수 있다.

ctl과 wt의 상관계수가 0.78이므로 실린더 수가 많을 수록 자동차가 무거운 경향이 있다.

 

+ corrplot으로 히트맵 만들기

 

상관관계가 클수록 원의 크기가 크고 색이 진하다.

상관계수가 양수면 파란색 음수면 빨간색 계열로 표현된다.

+ corrplot의 method 파라미터에 number 지정 시

 원 대신 상관계수가 표현되게 설정할 수 있다.

+colorRamPalette로 색상 코드 목록을 생성한 후 col 파라미터에 지정해 여러 파라미터를 저장해보겠다.

파라미터의 의미는 차례대로 색깔로 표현, 색상 200개 선정, 왼쪽 아래 행렬만 표시, 유사한 상관계수끼리 군집화, 상관계수 색깔, 변수명 색깔, 변수명 45도 기울임, 대각 행렬 제외 이다. 

 

영우, 『쉽게 배우는 R 데이터 분석』, 이지스 퍼블리싱, 2019