Pandas, dplyr 간단하게 몇가지 함수 ...
Pandas Package
- Wes Mckinney
- R의 data.frame과 같은 것이다.
- Series, DataFrame,Panel 데이터 클래스 제공
import statsmodels.spi as sm
trees = sm.datasets.get_rdataset("trees")['data']
pd.crosstab : index, column 지정 가능
.groupby(by=[,]).mean()
stack, unstack
factor(변수, levels=c(1:3), labels=c("원하는것1","2","3"))
이용해서 원하는 범위의 라벨값을 변경할 수 있다. 명목형 데이터에 적용
ordered( )
순서형 데이터에 적용
recode( )
범위를 주어 값을 변환할 수 있다. 반드시 라벨값을 줘야한다(ordered를 이용하면된다)
dplyr
새로운 변수 추가 mutate
colnames(data) 변수이름 변경
chain 기능 - 여러 명령을 한번에 수행할 수 있게 하는 기능 %>% (then)
flights[,c("DepTime","ArrTime","FlightNum")]
select(flights, DepTime, ArrTime, FlightNum)
같은 결과 다른 코드
summarise_each 여러개의 변수에 함수(평균)를 적용시켜라
filter(data, col1=='m', col2==3)
%matplotlib inline
qt5 새로운 창에서 그래프가 뜬다.
np.concatenate 2개의 np.array를 합친다.
plt.legend()
plt.subplots(2,2)
sns.lmplot
geom_point 구간별로 색을 지정할 수 있다.