Alchemist
[R studio - 5 ] 그래프 만들기 본문
그래프 (Graph) : 데이터를 보기 쉽게 그림으로 표현한 것
그래프로 데이터를 표현하면 "추세" 와 "경향성" 이 드러나 특성을 더욱 쉽게 이해할 수 있다.
(ggplot2 패키지는 그래프를 만들 때 가장 많이 사용하는 패키지이다. ggplot2를 이용해 그래프를 그려보도록 하겠다.)
산점도 - 변수 간 관계 표현
함수 : geom_point()
산점도 (Scater Plot) : 데이터를 x축과 y축에 점으로 표현한 그래프
산점도는 연속된 값으로 된 두 변수의 관계를 표현할 때 사용한다.
#1. 배경 설정하기
data에 그래프를 그리는 데 사용할 데이터를 지정
aes에는 x축과 y축에 사용할 변수를 지정
ggplot(data = mpg,aes(x=displ , y=hwy))
#2. 그래프 추가하기
+ 기호를 이용해 그래프 유형을 지정하는 함수를 추가하면 된다.
ggplot(data = mpg,aes(x=displ , y=hwy)) + geom_point()
막대 그래프 - 집단 간 차이 표현
함수 : geol_col()
산점도 (Scater Plot) : 데이터의 크기를 막대의 길이로 표현한 그래프
집단 간 차이를 표현할 때 주로 사용된다.
#1. 집단별 평균표 만들기
dplyr를 이용해 '구동 방식 별 평균 고속도로 연비'로 구성된 데이터 프레임을 만든다.
library(dplyr)
df_mpg <- mpg %>%
group_by(drv) %>%
summarise(mean_hwy = mean(hwy))
#2. 그래프 생성하기
aes의 x축에 범주를 나타내는 변수를 지정하고, y축에 평균값을 나타내는 변수를 지정한다.
+ 기호로 연결해 막대 그래프를 만드는 함수를 추가한다.
ggplot(data = df_mpg , aes(x=drv , y=mean_hwy)) + geom_col()
*빈도 막대 그리기
빈도 막대 그래프 : 값의 개수로 막대의 길이로 표현한 그래프.
빈도 막대를 그리기 위해서는 y축 없이 x축만 저장하고 geom_bar() 함수를 사용하면 된다.
선 그래프 - 시간에 따라 달라지는 데이터 표현
함수 : geom_line()
선 그래프 (Line Chart) : 시간에 따라 달라지는 데이터를 선으로 표현한 그래프.
#1 ggplot2 패키지에 들어 있는 economics 데이터를 이용해 시계열 그래프 그려보기.
x축에는 시간을 의미하는 date, y축에는 실업자 수를 의미하는 unemploy를 지정해 선 그래프를 그려보도록 하겠다.
ggplot(data = economics , aes(x = date, y = unemploy)) + geom_line()
선 그래프로 시간에 따른 실업자 동향 그래프를 나타내 보았다.
상자 그림 - 집단 간 분포 차이 표현
함수 : geol_boxplot()
상자 그림 : 데이터의 분포를 직사각형 상자 모양으로 표현한 그래프
상자 그래프로 데이터를 표현하면 분포를 알 수 있기 떄문에 데이터의 특성을 더 자세히 이해할 수 있다.
[R studio - 4 ] 에서도 boxplot을 그려 데이터의 이상치를 확인해본 내용이 있다.
(boxplot의 내용은 전 챕터를 확인)
김영우, 『쉽게 배우는 R 데이터 분석』, 이지스 퍼블리싱, 2019
'R-coding' 카테고리의 다른 글
[R studio - 7 ] 지도 시각화 (0) | 2019.05.28 |
---|---|
[R studio - 6 ] 텍스트 마이닝 (0) | 2019.05.27 |
기초 통계 원리 (0) | 2019.05.26 |
[R studio - 4] 데이터 정제 - 이상치 정제하기 (0) | 2019.05.26 |
[R studio - 3 ] 데이터 정제 - 빠진 데이터 제거하기 (0) | 2019.05.15 |