공부중 .../다변량분석

[군집분석 Cluster Analysis]

Chelsey 2022. 4. 5. 07:03
728x90

군집분석 Cluster Analysis

Unsupervised Learning of Machine Learning (머신러닝에서의 대표적인 비지도학습 방법)

유사한 속성을 가진것끼리 묶는다.

 

예를 들어, 백화점 고객을 군집분석하고자 한다면 고객의 연령, 성별, 구매품목 등을 여러 변수로 이용할 수 있다. 

그리고 각 고객이 유사한지 확인하는 것을 유사성 측도라고 한다. 이는 각 데이터의 거리를 측정하는 것인데,

유사성 측도 혹은 거리 중심의 측도라고도 한다.

 

  1. 계층적 군집분석
  2. 비계층적 군집분석
    1. k-means(clustering)
    2. DBSCAN

거리, 유사성측도

각 데이터의 거리를 측정하는 방법

1. 유클리디아 거리

    (Xi-Yi)의 제곱의 합의 제곱근

2. 유클리디아 제곱의 거리

3. Block, City-Block, 멘하튼 거리 

:> 가장 가까운것끼리 묶게 된다.

 

유사성중심의 유사성 측도

1. 코사인 값

2. 상관계수 

 

군과 군의 거리를 측정하는 방법

1. 최단연결법(작은 값을 거리로 정의)

2. 최장연결법(큰 값을 거리로 정의)

 

거리를 구하기 전 ! 표준화를 통해 데이터들의 단위를 맞출 수 있다.

1. Z-표준화= (데이터 - 평균) / 표준편차 

    -> 평균: 0 , 분산 : 1 

2. 0-1 변환 = (데이터 - min) / (max - min)

    -> 값이 가장 작은 것 : 0 , 가장 큰 것 : 1 로 변환됨.

계층적 군집분석

군집을 순차적으로 묶어 나가는 방법.

이를 덴드로그램으로 묶어나가는 순서를 그려낼 수 있다.

 

묶인 군집과 데이터와의 거리 측정방법 : 

    최단연결법, 최장연결법, 중심연결법(중앙값을 거리로 정의), 평균연결법(모든 데이터의 평균점), ward 방법

    각 데이터들의 거리를 모두 구한 다음 최단, 최장, 중심에 해당되는 방법을 선택한다.

 

  • 최단 연결방법 Nearest-neighbor, Single linkage : 각 관찰치 또는 군집 사이의 거리가 가장 작은값을 기준으로 연결
  • 최장 연결방법 Furthest-neighbor, Complete linkage : 거리가 가장 큰 값을 기준으로 연결
  • 중심 연결방법 Centroid linkage : 각 군집의 중심을 기준으로 연결
  • 평균 연결방법 Average linkage : 두 군집의 모든 데이터의 거리들의 평균을 군집간 거리로 측정해 연결
  • ward's Method : 군집내 제곱합을 최소화 

각 방법들의 특징

  • 최단연결법 : 하나의 큰 군집화를 순차적으로 만들어감
  • 최장연결법: 비슷한 크기로 여러 개 군집을 만들어 연결함

묶인 군집들이 타당한지 다변량 그래프로 알아보기

  • 변수가 두 개인 경우 -> 산점도 그래프
  • 주성분 분석에서 구해진 상위2개 주성분을 이용한 산점도 그래프
  • 변수가 3개 인 경우 3차원 산점도 혹은 bubble 그래프
  • star 그래프와 같은 다변량 그래프

R을 이용한 계층적 군집분석

 

728x90