목록공부중 .../다변량분석 (3)
여정의 기록
군집분석 Cluster Analysis Unsupervised Learning of Machine Learning (머신러닝에서의 대표적인 비지도학습 방법) 유사한 속성을 가진것끼리 묶는다. 예를 들어, 백화점 고객을 군집분석하고자 한다면 고객의 연령, 성별, 구매품목 등을 여러 변수로 이용할 수 있다. 그리고 각 고객이 유사한지 확인하는 것을 유사성 측도라고 한다. 이는 각 데이터의 거리를 측정하는 것인데, 유사성 측도 혹은 거리 중심의 측도라고도 한다. 계층적 군집분석 비계층적 군집분석 k-means(clustering) DBSCAN 거리, 유사성측도 각 데이터의 거리를 측정하는 방법 1. 유클리디아 거리 (Xi-Yi)의 제곱의 합의 제곱근 2. 유클리디아 제곱의 거리 3. Block, City-Bl..
주성분 분석 PCA 이란? 현상에 대한 관련된 변수가 적다면 상관없지만, 100개 등 너무 많은 수인 경우 분석하기가 어렵다. 그래서 변수를 줄이는 방식을 생각하게 되는데, dimension reduction과 같은 원래 데이터를 손실하지 않으면서 차원을 줄이는 방법을 강구하게 된다. PCA는 고차원의 데이터를 저차원으로 환원시키는 방법이다. X1 X2 X3 ... X100 수 많은 변수들을 이용하게 되면 PC=a1X1+a2X2+a3X3+...+a100X100 아주 많은 변수를 사용하기 때문에 식이 엄청나게 길어진다. 그래서 변수를 100개 모두가 아닌 그 중 n개만 선택해서 데이터를 표현하고자 하게된다. 여기서 a1, a2, ..., a100은 주성분 계수라고 한다. 그래서 PC1=a1X1+a2X2 의..

Python과 R의 기초 모듈 불러오기 import math # math module 불러오기 math.sqrt(25) # 25의 제곱근 from math import sqrt sqrt(25) # math 중 sqrt 하나만 불러올 수도 있다. from math import cos, floor import os os.getcwd() # 영역 지정 os.chdir("c:/data/pydata") import pandas as pd text = pd.read_csv("text.csv") # 파일 지정 Python 주석 # """ in the morning """ 범주형 변수 변환시키기 factor factor(survery$sex, levelse=c(1:2), labels=c('Male','Female'))..