여정의 기록

Pandas, dplyr 간단하게 몇가지 함수 ... 본문

공부중 .../파이썬과 R

Pandas, dplyr 간단하게 몇가지 함수 ...

Chelsey 2022. 12. 11. 00:21
728x90

Pandas Package

- Wes Mckinney
- R의 data.frame과 같은 것이다.

- Series, DataFrame,Panel 데이터 클래스 제공

import statsmodels.spi as sm

trees = sm.datasets.get_rdataset("trees")['data']

pd.crosstab  : index, column 지정 가능

.groupby(by=[,]).mean()

stack, unstack

factor(변수, levels=c(1:3), labels=c("원하는것1","2","3"))
이용해서 원하는 범위의 라벨값을 변경할 수 있다. 명목형 데이터에 적용

ordered( )
순서형 데이터에 적용

recode( )
범위를 주어 값을 변환할 수 있다. 반드시 라벨값을 줘야한다(ordered를 이용하면된다)

dplyr 

새로운 변수 추가 mutate

colnames(data) 변수이름 변경

chain 기능 - 여러 명령을 한번에 수행할 수 있게 하는 기능 %>% (then)

flights[,c("DepTime","ArrTime","FlightNum")]
select(flights, DepTime, ArrTime, FlightNum)
같은 결과 다른 코드

summarise_each 여러개의 변수에 함수(평균)를 적용시켜라

filter(data, col1=='m', col2==3)

 

%matplotlib inline 

qt5 새로운 창에서 그래프가 뜬다.

np.concatenate 2개의 np.array를 합친다.

plt.legend()

plt.subplots(2,2)

sns.lmplot

geom_point 구간별로 색을 지정할 수 있다.

728x90

'공부중 ... > 파이썬과 R' 카테고리의 다른 글

분산분석이란 ...  (0) 2022.12.11
R, Python을 이용한 산점도, 상관계수, 회귀분석  (0) 2022.12.09
t-검정에 대하여  (0) 2022.12.09
R, python을 이용한 기술통계  (0) 2022.12.09
자료의 입력과 출력  (0) 2022.12.07