'공부/data 전처리, 분석' 카테고리의 글 목록

250x250

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록공부/data 전처리, 분석 (5)

여정의 기록

scipy.ndimage.shift 이미지 옮기기에 적용할 수 있는 데이터 증식 방법

예전 캐글 경진대회에 참여하여 데이터를 다룰 때 데이터를 증식시키기위한 코드로 shift를 사용한 것을 본 적 있다. 처음에는 이게 뭔가 ... 싶었는데 그래도 자꾸 보다보니 이해가 된다. 학습을 시킬 땐 데이터가 많으면 좋기 때문에 많은 데이터를 확보해야하는데, 우리의 환경상 원하는 만큼 데이터를 가지기 힘들다. 그럴땐 가지고 있는 데이터를 증식하여 이를 이용하게 되는데 shift를 이용하여 이미지 데이터를 증식시킬 수 있다. from scipy.ndimage.interpolation import shift 해당 모듈에서 설정할 수 있는 파라미터값 종류를 보자. shift(inputdata, shift할정도, cval=움직여서남은여백에줄값, mode=움직이고남은여백값을어떤설정에따를것인지) input -..

공부/data 전처리, 분석 2023. 1. 5. 15:55

OrdinalEncoder, OneHotEncoder

라벨값을 전처리하는 방법은 다양하게 있다. 카테고리 라벨값을 전처리하는 방법을 잊지 않도록 복기하고자 기록한다. OrdinalEncoder from sklearn.preprocessing import OrdinalEncoder ordinal_encoder = OrdinalEncoder() 이 방법은 문자열인 카테고리를 수치화해준다. 결과값으로는 0, 1, 2, 3과 같이 숫자로 나온다. 학점이라던가, 영화 평점과 같이 카테고리가 순서형인 경우 적합하지만 고양이, 개와 같은 동물의 종이나 지역명과 같은 카테고리에는 적합하지 않을 수 있다. OneHotEncoder from sklearn.preprocessing import OneHotEncoder onehotencoder = OneHotEncoder() ..

공부/data 전처리, 분석 2023. 1. 4. 17:27

군집합과 분류의 차이?

문득 군집합이나 분류나 데이터를 나눈다는 개념은 비슷한데 무슨 차이지? 싶어서 찾아봤다. 지도학습과 비지도학습의 차이라고는 하는데 크게 와닿지 않았다. 군집합은 라벨링 없이 데이터만을 분석해서 나누는 것이고 분류는 라벨을 붙여서 각 라벨별로 공통되는 특징을 추출하는 것 같다 그래서, 군집합은 가지고 있는 데이터를 연구할 때 사용하고 분류는 가지고 있는 데이터로 모델을 학습해 다른 데이터를 분류하는 '예측'을 할 때 쓸수 있겠다.

공부/data 전처리, 분석 2022. 9. 8. 01:40

간단한 시각화 종류 기록

예전 코드들을 보다가 여러 시각화 방법을 기록해둔 파일이 있어서 정리해서 올려보고자 한다. 당시 데이터는 sns.load_dataset("mpg") 를 이용하였다. 아래는 타이타닉 데이터를 사용하였다

공부/data 전처리, 분석 2022. 8. 14. 17:31

데이터의 NaN값을 확인하고 어떻게 처리할지 생각해보자 (대체하기)

좌표간의 거리를 구할수 있다. 유클리디아 거리 법 등 방법을 이용해서. 데이터를 처리하기 위해서는 제일 먼저 1. 구조를 확인한다. 행과 열, 몇 차원인지 이런 것들... str(data) 2. 값의 형태를 확인한다. table(data$col) 3. NaN 값이 있는지 동시 확인가능하다. table(data$col, useNA="ifany") 4. 기술통계를 확인하여 뭔가... 상식적으로 이상하다는 점을 파악할 수 있다. (이상한 데이터는 다른 데이터로 대체 혹은 NaN값으로 만들 수 있음) (그런데 여기서 우리는 데이터에 대한 어느정도 상식을 가지고 있어야한다는 점을 생각할 수 있다) summary(data$col) 자, 그러면 이제 NaN값으로 변경해 보자. 1. 해당 컬럼의 summary를 봤을 ..

공부/data 전처리, 분석 2021. 9. 7. 02:17

이전 Prev 1 Next 다음

목록공부/data 전처리, 분석 (5)

여정의 기록

티스토리툴바