공부중 .../파이썬과 R

Pandas, dplyr 간단하게 몇가지 함수 ...

Chelsey 2022. 12. 11. 00:21
728x90

Pandas Package

- Wes Mckinney
- R의 data.frame과 같은 것이다.

- Series, DataFrame,Panel 데이터 클래스 제공

import statsmodels.spi as sm

trees = sm.datasets.get_rdataset("trees")['data']

pd.crosstab  : index, column 지정 가능

.groupby(by=[,]).mean()

stack, unstack

factor(변수, levels=c(1:3), labels=c("원하는것1","2","3"))
이용해서 원하는 범위의 라벨값을 변경할 수 있다. 명목형 데이터에 적용

ordered( )
순서형 데이터에 적용

recode( )
범위를 주어 값을 변환할 수 있다. 반드시 라벨값을 줘야한다(ordered를 이용하면된다)

dplyr 

새로운 변수 추가 mutate

colnames(data) 변수이름 변경

chain 기능 - 여러 명령을 한번에 수행할 수 있게 하는 기능 %>% (then)

flights[,c("DepTime","ArrTime","FlightNum")]
select(flights, DepTime, ArrTime, FlightNum)
같은 결과 다른 코드

summarise_each 여러개의 변수에 함수(평균)를 적용시켜라

filter(data, col1=='m', col2==3)

 

%matplotlib inline 

qt5 새로운 창에서 그래프가 뜬다.

np.concatenate 2개의 np.array를 합친다.

plt.legend()

plt.subplots(2,2)

sns.lmplot

geom_point 구간별로 색을 지정할 수 있다.

728x90