본문 바로가기

Library/Bioinformatics

Clustering Method

어떤 클러스터링 방법을 사용하던지, 모든 데이터를 대상으로 클러스터링을 하는 것은 아니다. 특히, 전체 데이터는 노이즈가 심할 수 있기 때문에, 차이에 관계없이 고정적인 결과를 보이는 데이터는 제외하는 것이 좋다.

k-means 클러스터링 방법은 클러스터의 거리를 계산할 때 Eucleadian Distance를 가장 자주 쓴다. 이 방법은 먼저 임의의 k개의 위치를 선택하고, 이 위치에 대해 데이터의 거리를 계산하여 초기 k개의 클러스터 그룹을 형성한다. 다음, 이 클러스터의 평균점을 계산하고, 이 평균점에 대해 다시 모든 데이터의 거리를 계산하여 더 좋은 클러스터를 형성한다. 이 과정을, 클러스터 사이의 데이터 이동이 최소가 될 때까지 반복한다.

이 방법은 주변의 몇몇 노이즈에 의해 클러스터링 결과가 크게 달라질 수 있기 때문에, 특히 샘플링 과정에 유의해야 한다. 이렇게 클러스터링 결과에 크게 영향을 미칠 수 있는 노이즈성 데이터를 outlier라고 한다.

k-medios 방법은 임의의 위치를 선택하는 k-means 방법과 달리, 대표적인 데이터를 초기 k로 선택하는 방법이다. 대표적인 데이터는, 데이터가 몰려있는 곳을 중심으로 그 범위를 가장 잘 나타낼 수 있는 데이터를 대표 데이터로 선택하면 된다. 이 방법은 outlier에 강하다는 장점이 있다. 클러스터를 형성하는 것은 k-means 방법과 동일하다.

ISODATA 방법은 큰 클러스터는 적정 크기로 나누고, 너무 작은 클러스터는 합쳐서 적정 크기로 맞춘다. 즉, 데이터가 편중되어 있어 클러스터 사이에 너무 크기 차이가 난다면 이것은 좋은 결과가 아니기 때문이다. 언제 합치고, 언제 나눠야 할지에 대한 뚜렷한 측정 기준은 없다. 클러스터링 결과를 봐서 가장 좋은 것을 선택해야 한다.