[군집분석 Cluster Analysis]
군집분석 Cluster Analysis
Unsupervised Learning of Machine Learning (머신러닝에서의 대표적인 비지도학습 방법)
유사한 속성을 가진것끼리 묶는다.
예를 들어, 백화점 고객을 군집분석하고자 한다면 고객의 연령, 성별, 구매품목 등을 여러 변수로 이용할 수 있다.
그리고 각 고객이 유사한지 확인하는 것을 유사성 측도라고 한다. 이는 각 데이터의 거리를 측정하는 것인데,
유사성 측도 혹은 거리 중심의 측도라고도 한다.
- 계층적 군집분석
- 비계층적 군집분석
- k-means(clustering)
- DBSCAN
거리, 유사성측도
각 데이터의 거리를 측정하는 방법
1. 유클리디아 거리
(Xi-Yi)의 제곱의 합의 제곱근
2. 유클리디아 제곱의 거리
3. Block, City-Block, 멘하튼 거리
:> 가장 가까운것끼리 묶게 된다.
유사성중심의 유사성 측도
1. 코사인 값
2. 상관계수
군과 군의 거리를 측정하는 방법
1. 최단연결법(작은 값을 거리로 정의)
2. 최장연결법(큰 값을 거리로 정의)
거리를 구하기 전 ! 표준화를 통해 데이터들의 단위를 맞출 수 있다.
1. Z-표준화= (데이터 - 평균) / 표준편차
-> 평균: 0 , 분산 : 1
2. 0-1 변환 = (데이터 - min) / (max - min)
-> 값이 가장 작은 것 : 0 , 가장 큰 것 : 1 로 변환됨.
계층적 군집분석
군집을 순차적으로 묶어 나가는 방법.
이를 덴드로그램으로 묶어나가는 순서를 그려낼 수 있다.
묶인 군집과 데이터와의 거리 측정방법 :
최단연결법, 최장연결법, 중심연결법(중앙값을 거리로 정의), 평균연결법(모든 데이터의 평균점), ward 방법
각 데이터들의 거리를 모두 구한 다음 최단, 최장, 중심에 해당되는 방법을 선택한다.
- 최단 연결방법 Nearest-neighbor, Single linkage : 각 관찰치 또는 군집 사이의 거리가 가장 작은값을 기준으로 연결
- 최장 연결방법 Furthest-neighbor, Complete linkage : 거리가 가장 큰 값을 기준으로 연결
- 중심 연결방법 Centroid linkage : 각 군집의 중심을 기준으로 연결
- 평균 연결방법 Average linkage : 두 군집의 모든 데이터의 거리들의 평균을 군집간 거리로 측정해 연결
- ward's Method : 군집내 제곱합을 최소화
각 방법들의 특징
- 최단연결법 : 하나의 큰 군집화를 순차적으로 만들어감
- 최장연결법: 비슷한 크기로 여러 개 군집을 만들어 연결함
묶인 군집들이 타당한지 다변량 그래프로 알아보기
- 변수가 두 개인 경우 -> 산점도 그래프
- 주성분 분석에서 구해진 상위2개 주성분을 이용한 산점도 그래프
- 변수가 3개 인 경우 3차원 산점도 혹은 bubble 그래프
- star 그래프와 같은 다변량 그래프
R을 이용한 계층적 군집분석