Notice
Recent Posts
Recent Comments
Link
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

Alchemist

[R studio - 5 ] 그래프 만들기 본문

R-coding

[R studio - 5 ] 그래프 만들기

Alchemist__ 2019. 5. 27. 13:30

그래프 (Graph) : 데이터를 보기 쉽게 그림으로 표현한 것

그래프로 데이터를 표현하면 "추세" 와 "경향성" 이 드러나 특성을 더욱 쉽게 이해할 수 있다.

(ggplot2 패키지는 그래프를 만들 때 가장 많이 사용하는 패키지이다. ggplot2를 이용해 그래프를 그려보도록 하겠다.)

 

산점도 - 변수 간 관계 표현

함수 : geom_point()

산점도 (Scater Plot) : 데이터를 x축과 y축에 점으로 표현한 그래프

산점도는 연속된 값으로 된 두 변수의 관계를 표현할 때 사용한다.

 

#1. 배경 설정하기

data에 그래프를 그리는 데 사용할 데이터를 지정

aes에는 x축과 y축에 사용할 변수를 지정

ggplot(data = mpg,aes(x=displ , y=hwy))

 

#2. 그래프 추가하기

+ 기호를 이용해 그래프 유형을 지정하는 함수를 추가하면 된다.

ggplot(data = mpg,aes(x=displ , y=hwy)) + geom_point()

 

막대 그래프 - 집단 간 차이 표현

함수 : geol_col()

산점도 (Scater Plot) : 데이터의 크기를 막대의 길이로 표현한 그래프

집단 간 차이를 표현할 때 주로 사용된다.

 

#1. 집단별 평균표 만들기

dplyr를 이용해 '구동 방식 별 평균 고속도로 연비'로 구성된 데이터 프레임을 만든다.

library(dplyr)

df_mpg <- mpg %>%
	group_by(drv) %>%
    summarise(mean_hwy = mean(hwy))

 

#2. 그래프 생성하기

aes의 x축에 범주를 나타내는 변수를 지정하고, y축에 평균값을 나타내는 변수를 지정한다.

+ 기호로 연결해 막대 그래프를 만드는 함수를 추가한다.

ggplot(data = df_mpg , aes(x=drv , y=mean_hwy)) + geom_col()

 

*빈도 막대 그리기

빈도 막대 그래프 : 값의 개수로 막대의 길이로 표현한 그래프.

빈도 막대를 그리기 위해서는 y축 없이 x축만 저장하고 geom_bar() 함수를 사용하면 된다.

 

선 그래프 - 시간에 따라 달라지는 데이터 표현

함수 : geom_line()

선 그래프 (Line Chart) : 시간에 따라 달라지는 데이터를 선으로 표현한 그래프.

 

#1 ggplot2 패키지에 들어 있는 economics 데이터를 이용해 시계열 그래프 그려보기.

 

x축에는 시간을 의미하는 date, y축에는 실업자 수를 의미하는 unemploy를 지정해 선 그래프를 그려보도록 하겠다.

ggplot(data = economics , aes(x = date, y = unemploy)) + geom_line()

선 그래프로 시간에 따른 실업자 동향 그래프를 나타내 보았다.

 

 

상자 그림 - 집단 간 분포 차이 표현

함수 : geol_boxplot()

상자 그림 : 데이터의 분포를 직사각형 상자 모양으로 표현한 그래프

상자 그래프로 데이터를 표현하면 분포를 알 수 있기 떄문에 데이터의 특성을 더 자세히 이해할 수 있다.

 

[R studio - 4 ] 에서도 boxplot을 그려 데이터의 이상치를 확인해본 내용이 있다.

(boxplot의 내용은 전 챕터를 확인)

 

영우, 『쉽게 배우는 R 데이터 분석』, 이지스 퍼블리싱, 2019