여정의 기록
[R]Tidyverse - dplyr을 이용해서 데이터프레임을 편집할 수 있다. 본문
Tidyverse
데이터 과학을 위한 패키지들의 조합
install.packages("tidyverse")
주요 패키지
- tibble : 새로운 데이터 프레임 개념. 직관적 이, 편리한 데이터 편집, 빠른연산
- ggplot2 : 시각화, 그래프 편집, 그래프 의미부여, 부가적인 편집
- tidyr : 데이터를 편리하고 깔끔하게 이용
- readr : csv 같은 빠르게 읽고 처리
- purrr : 함수와 벡터를 다루는 유용한 도구. 기존 반복문 등의 구분을 보다 쉽고 명확하게 작성하도록 돕는 패키지
- stringr / forcats : 문자열 편집, R의 인자factor 다루는데 특화됨
tibble()
데이터 프레임을 생성하는 함수
데이터 편집, 표현 과정이 간단
큰 용량의데이터 처리에 용이
변수 속성 지정이 용이하여 데이터 편집 상 오류 방지
mpg data
1999 ~ 2008 매년 인기차종 조사한 tibble dataframe
library(tidyverse):mpg
print(mpg, n=5, width=Inf)
as,data,frame()
전통적 데이터 프레임으로 변환
as_tibble()
tibble data frame으로 변환
mtcars data :
자동차의 각 사양과 연비에 대한 R 내장 데이터. 데이터 프레임 형태
- ?mtcars (==help mtcars 뜻함)
as_tibble(rownames_to_column(mtcars)) 을 실행 -> tibble data frame으로 변환
dplyr을 이용한 데이터 프레임 편집
tibble 데이터 환경에서 활용도가 매우 높은 함수를 제공한다.
데이터 편집을 유연하고 폭넓게 할 수 있게 한다.
- filter : 관측치를 조건에 맞춰 필터링
- arrange : 관측치를 정렬
- select : 관측치 중 변수를 지정하여 추출
- mutate : 새로운 변수의 추가
- group_by : 그룹 생성 , 특정 변수를 기준으로 형성한다
- summarize : 자료의 요약
- 파이프 연산자 %>% : 기존 함수는 () 를 사용했다. f1(f2(f3())) 식으로 계속 감싸줘야 했다.
하지만 파이프 연산자를 사용하면 data %>% f1 %>% f2 %>% f3 처럼 표현할 수 있다.
x %>% f(y) == f(x,y) 이고 x %>% f(y,) == f(y,x) 이다.
ex) data$col1 %>% mean
'공부중 ... > 데이터과학개론' 카테고리의 다른 글
ggplot2로 데이터 시각화를 해보자 (0) | 2022.12.08 |
---|---|
인포그래픽, 데이터 시각화 단계와 종류 (0) | 2022.12.08 |
Git , GitHub , R 알아보기 (0) | 2022.12.01 |
데이터 분석 도구 (0) | 2022.10.25 |
데이터의 품질과 표현 (0) | 2022.10.25 |