목록R-coding (15)
Alchemist
이상치 (Outlier) : 정상 범주에서 크게 벗어난 값 -> 이상치가 포함되어 있으면 분석 결과가 왜곡되기 때문에 분석에 앞서 이상치를 제거해 주어야 한다. #1 이상치가 있는 데이터 만들기 sex의 범위 : 1~2 , score의 범위 : 1~5 인 변수로 구성된 데이터 생성. outlier % group_by(sex) %>% summarise(mean_score = mean(score)) 상자 그림(Boxplot)을 이용해 극단치 기준 정하기 1. mpg 데이터의 hwy 변수로 상자 그림을 만들어 보겠다. (mpg 데이터는 ggplot2 에 내장된 샘플데이터이다.) boxplot(mpg$hwy) 상자 그림은 값을 크기 순으로 나열해 4등분 했을 때 위치하는 값인 '사분위수'를 이용해 그려진다. 아..
#1 결측치 정제 결측치(Missing Value) - 누락된 값, 비어 있는 값. 결측치가 있으면 함수가 적용되지 않거나 분석 결과가 외곡되는 문제가 발생한다. 때문에 결측치가 있는지 확인해 제거하는 정제 과정을 거친 후에 분석을 해야 한다. 1. 데이터 프레임 만들기 df
#1 데이터 전처리 '데이터 전처리(Data Preprocessing)' - 분석에 적합하게 데이터를 가공하는 작업 데이터의 일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등의 가공 작업을 말한다. dplyr 함수 기능 filter() 행 추출 select() 열(변수) 추출 arrange() 정렬 mutate() 변수 추가 summarise() 통계치 산출 group_by() 집단별로 나누기 left_join() 데이터 합치기(열) bind_rows() 데이터 합치기(행) library(dplyr) exam % 기호를 이용해 함수들을 나열하는 방식으로 코드를 작성한다. #2 조건에 맞는 데이터만 추출하기 dplyr 패키지의 filter()를 이용하면 원하는 데이터(일부)를 추출할 수 있다..
이번 내용에서는 데이터 파악, 데이터 수정에 관한 내용을 학습해보았다. 데이터를 파악할 때 사용하는 기본 함수들 head() - 데이터 앞부분 출력 (기본적으로 6개의 데이터 출력. 사용자가 임의의 값 지정 가능) tail() - 데이터 뒷부분 출력 (기본적으로 6개의 데이터 출력. 사용자가 임의의 값 지정 가능) View() - 뷰어 창에서 데이터 확인 dim() - 데이터 차원 출력 str() - 데이터 속성 출력 summary() - 데이터 총계량 출력 qplot() - 막대 그래프로 빈도 표현 table() - 빈도표로 데이터를 표현한다 잠시 후 실습 사진을 통해 'midwest' 라는 데이터를 파악하기 위해 위의 함수를 사용 했음을 알수 있다. ggplot2 패키지로 데이터 파악하기 mpg 데이..
데이터 시각화 데이터 시각화는 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다. 데이터 시각화의 목적은 도표라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것이다. 데이터 시각화를 통해 얻을 수 있는 장점들은 다음과 같다 시각화 정보는 일반 텍스트 기사보다 30배 이상의 효과를 준다. 우리들의 뇌로 전달되는 90%이상의 정보는 비쥬얼로 전달되었을 때 그 가치가 높아지며 시각화 정보는 일반 텍스트보다 6만배 이상 뇌에게 빠르게 인식된다. 데이터 시각화의 과정 데이터 시각화의 과정은 총 4단계로 이루어져 있다. EDA ▶ 가설검정 ▶ 머신러닝 ▶ 평가 그 중 데이터 분석의 단계 중 가장 많은 시간이 소요될 정도로 중요한 EDA(탐색적 자료 분석)에 대해 알아보도록 ..
이번에는 R을 더욱 편리하게 사용할 수 있는 IDE(통합 개발 환경)인 R Studio를 설치해보도록 하자.R과 같이 R Studio도 설치 과정은 매우 쉽다. ------------------------------------------------------------------------------------------------- 1. R Studio 공식 홈페이지를 접속해 Downloae RStudio 항목을 선택한다. (https://www.rstudio.com/) 2. R Studio의 버전을 선택해 DOWNLOAD를 클릭. (일반적으로 Open Source Licence인 RStudio Desktop을 설치) 3. 본인 OS에 맞는 버전을 선택해 다운로드한다. (Windows 환경 기준 빨간 ..
R과 R통합 개발 환경인(IDE) R Studio를 설치해보도록 하자.설치 과정은 매우 쉬우나, R 설치 후 R Studio를 설치해야 하는 순서만 지키면 된다.(이유는 다음 장 R Studio를 설치하면서 설명하도록 하겠다.) -------------------------------------------------------------------------------------- 1. R 공식 홈페이지를 접속한다. (https://cran.r-project.org) 2. 본인 OS에 맞는 버전을 선택해 다운로드한다. (본인은 Windows OS를 사용중이므로 Download R for Windows 파일을 선택하였음.) 3. 다음 창에서 install R for the first time을 클릭한다. ..