목록공부/data 전처리, 분석 (5)
여정의 기록
예전 캐글 경진대회에 참여하여 데이터를 다룰 때 데이터를 증식시키기위한 코드로 shift를 사용한 것을 본 적 있다. 처음에는 이게 뭔가 ... 싶었는데 그래도 자꾸 보다보니 이해가 된다. 학습을 시킬 땐 데이터가 많으면 좋기 때문에 많은 데이터를 확보해야하는데, 우리의 환경상 원하는 만큼 데이터를 가지기 힘들다. 그럴땐 가지고 있는 데이터를 증식하여 이를 이용하게 되는데 shift를 이용하여 이미지 데이터를 증식시킬 수 있다. from scipy.ndimage.interpolation import shift 해당 모듈에서 설정할 수 있는 파라미터값 종류를 보자. shift(inputdata, shift할정도, cval=움직여서남은여백에줄값, mode=움직이고남은여백값을어떤설정에따를것인지) input -..
라벨값을 전처리하는 방법은 다양하게 있다. 카테고리 라벨값을 전처리하는 방법을 잊지 않도록 복기하고자 기록한다. OrdinalEncoder from sklearn.preprocessing import OrdinalEncoder ordinal_encoder = OrdinalEncoder() 이 방법은 문자열인 카테고리를 수치화해준다. 결과값으로는 0, 1, 2, 3과 같이 숫자로 나온다. 학점이라던가, 영화 평점과 같이 카테고리가 순서형인 경우 적합하지만 고양이, 개와 같은 동물의 종이나 지역명과 같은 카테고리에는 적합하지 않을 수 있다. OneHotEncoder from sklearn.preprocessing import OneHotEncoder onehotencoder = OneHotEncoder() ..
문득 군집합이나 분류나 데이터를 나눈다는 개념은 비슷한데 무슨 차이지? 싶어서 찾아봤다. 지도학습과 비지도학습의 차이라고는 하는데 크게 와닿지 않았다. 군집합은 라벨링 없이 데이터만을 분석해서 나누는 것이고 분류는 라벨을 붙여서 각 라벨별로 공통되는 특징을 추출하는 것 같다 그래서, 군집합은 가지고 있는 데이터를 연구할 때 사용하고 분류는 가지고 있는 데이터로 모델을 학습해 다른 데이터를 분류하는 '예측'을 할 때 쓸수 있겠다.

예전 코드들을 보다가 여러 시각화 방법을 기록해둔 파일이 있어서 정리해서 올려보고자 한다. 당시 데이터는 sns.load_dataset("mpg") 를 이용하였다. 아래는 타이타닉 데이터를 사용하였다
좌표간의 거리를 구할수 있다. 유클리디아 거리 법 등 방법을 이용해서. 데이터를 처리하기 위해서는 제일 먼저 1. 구조를 확인한다. 행과 열, 몇 차원인지 이런 것들... str(data) 2. 값의 형태를 확인한다. table(data$col) 3. NaN 값이 있는지 동시 확인가능하다. table(data$col, useNA="ifany") 4. 기술통계를 확인하여 뭔가... 상식적으로 이상하다는 점을 파악할 수 있다. (이상한 데이터는 다른 데이터로 대체 혹은 NaN값으로 만들 수 있음) (그런데 여기서 우리는 데이터에 대한 어느정도 상식을 가지고 있어야한다는 점을 생각할 수 있다) summary(data$col) 자, 그러면 이제 NaN값으로 변경해 보자. 1. 해당 컬럼의 summary를 봤을 ..