목록R-coding (15)
Alchemist

z기술 통계 : 데이터를 요약해 설명하는 통계 기법 추론 통계 : 단순히 숫자를 요약하는 것을 넘어 어떤 값이 발생할 확률을 계산하는 통계 기법 통계적 가설 검정 : 유의확률을 이용해 가설을 검정하는 방법 (유의 확률 : 실제로는 집단 간 차이가 없는데 우연히 차이가 있는 데이터가 추출될 확률) t 검정 : 두 집단의 평균에 통계적으로 유의한 차이가 있는지 알아볼때 사용하는 통계 분석 기법 (r에 내장된 t.test()를 이용해 t 검정이 가능하다.) ggplot2 패키지의 mpg 데이터를 이용해 t 검정을 수행해보자. 소형차와 SUV가 도시 연비에서 통계적으로 유의한 차이가 있는지 알아보자. 1. mpg 데이터에서 class,cty 변수만 남긴 뒤 class$compact와 class$suv인 자동차를..
기초 통계 원리 통계분석절차 분석 방법 선정 분석하고자 하는 목적에 따른 귀무가설과 대립가설 설정 분석도구(SPSS , R등) 검정통계량 실행 및 확인 유의수준 결정 : 0.1 , 0.05 , 0.01 유의확률 확인 유의확률과 유의수준 비교.. alcemist.tistory.com 기초 통계 원리에 대해 전에 한번 정리해 두었다. ---------------------------------------------------------------------- 1. 영가설 : H0 2. 대립가설 : H1 증거를 수집하되, 유의수준(보통 0.05) 에 의해 객관적인 증거가 95% 이상 필요. 증거 - 95% 이상 증거 - 95% 미만 오류 - 5% 이하 오류 - 5% 미만 H1 H0 H1 H0 판단착오 H0 H..

R 마크다운을 활용하면 데이터 분석의 전 과정을 담은 보고서를 쉽게 만들 수 있다. 데이터 분석 보고서를 신뢰할 수 있으려면 동일한 분석 과정을 거쳤을 때 동일한 분석 결과가 반복되어 나오도록 "재현성"을 갖춰야 한다. R 마크다운을 이용하면 분석 과정과 결과를 자세하게 기술할 수 있기 때문에 재현성을 갖춘 데이터 분석 보고서를 만들 수 있습니다. 1. [File -> New File -> R Markdown]을 클릭하면 문서 생성 창이 나온다. 자신이 저장할 타입을 선택하면 문서 생성 창이 나온다. 2. 마크다운 창 메뉴에서 뜨개질 모양의 버튼을 클릭하면 문서 파일을 저장하는 창을 열린다. 나는 HTML 포맷으로 변환해 저장하겠다. (7번에서 만든 인터렉티브 그래프 문서를 만들겠다.) R 스튜디오에는 ..

인터렉티브 그래프 : 마우스 움직임에 반응하며 실시간으로 형태가 변하는 그래프 인터렉티브 그래프를 만들면 그래프를 자유롭게 조작하면서 관심 있는 부분을 자세히 살펴볼 수 있다. + HTML 포멧으로 저장하면, 일반 사용자도 웹 브라우저를 이용해 그래프를 조작할 수 있다. plotly와 dygraphs 두 패키지로 인터렉티브 그래프를 만들 수 있으나, 나는 plotly 패키지로 인터렉티브 그래프를 만들어 보겠다. #1. 패키지 준비하기 plotly 패키지를 설치하고 로드한다. #2.ggplot2로 그래프 그리기 ggplot2로 만든 그래프를 ggplotly()에 적용하면 인터렉티브 그래프가 만들어진다. mpg 데이터를 이용해 x축에 배기량, y축에 연비를 지정해 산점도를 만들어 보겠다. 또한 산점도의 점을..

지역별 통계치를 색깔의 차이로 표현한 것을 단계 구분도라고 한다. #미국 주별 강력 범죄율 단계 구분도 만들기 #1. 패키지 준비하기 단계 구분도는 ggiraphExtra 패키지를 이용한다. #2. 미국 주별 범죄 데이터 준비하기 R에 내장된 USArrests 데이터로 지도를 만들어 보겠다. USArrests 데이터는 지역명 변수가 따로 없고 행 이름이 지역명으로 되어 있기 때문에 tibble 패키지의 rownames_to_column()을 이용해 행 이름을 state 변수로 바꿔 새 데이터 프레임을 만들어 보겠다. 또한 지도 데이터와 동일하게 맞추기 위해 tolower()를 이용해 state 값을 소문자로 수정하겠다. (tibble은 dplyr를 설치할 때 같이 설치된다.) #3. 미국 주 지도 데이터..

텍스트 마이닝(Text mining) : 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법 텍스트 마이닝을 하기 위해서는 문장을 구성하는 어절들이 어떤 품사로 되어있는지 파악하는 "형태소 분석"을 해야한다. 한글 자연어 분석 패키지인 KoNLP를 이용하면 한글 데이터로 형태소 분석을 할 수 있다. #1. 패키지 준비하기 KoLNP(한글 자연어 분석 패키지)를 이용하려면 자바(Java)가 설치되어 있어야 한다. 또한 KoLNP를 이용하려면 rJava , memorise 두가지 패키지도 필요하다. 자바를 설치한 후 install.packages() 명령어를 이용해 rJava , memorise, KoLNP 세 패키지를 설치하도록 하자. (KoNLP 설치 중 오류 발생시 Sys.setenv(JAVA..

그래프 (Graph) : 데이터를 보기 쉽게 그림으로 표현한 것 그래프로 데이터를 표현하면 "추세" 와 "경향성" 이 드러나 특성을 더욱 쉽게 이해할 수 있다. (ggplot2 패키지는 그래프를 만들 때 가장 많이 사용하는 패키지이다. ggplot2를 이용해 그래프를 그려보도록 하겠다.) 산점도 - 변수 간 관계 표현 함수 : geom_point() 산점도 (Scater Plot) : 데이터를 x축과 y축에 점으로 표현한 그래프 산점도는 연속된 값으로 된 두 변수의 관계를 표현할 때 사용한다. #1. 배경 설정하기 data에 그래프를 그리는 데 사용할 데이터를 지정 aes에는 x축과 y축에 사용할 변수를 지정 ggplot(data = mpg,aes(x=displ , y=hwy)) #2. 그래프 추가하기 ..
통계분석절차 분석 방법 선정 분석하고자 하는 목적에 따른 귀무가설과 대립가설 설정 분석도구(SPSS , R등) 검정통계량 실행 및 확인 유의수준 결정 : 0.1 , 0.05 , 0.01 유의확률 확인 유의확률과 유의수준 비교 귀무가설과 대립가설 선택 분석 결론 모집단 표본 관심이 대상이 되는 모든 개체의 관측값이나 측정값의 집합 모집단에서 실제로 추출한 관측값이나 측정값 모수 통계량 대상 모집단의 특성 표본에서 계산한 특성 표시 그리스 로마자 표시 알파벳 표시 μ x̄ σ s