본문 바로가기

Library/Bioinformatics

Distance of Clusters

클러스터끼리 서로 얼마나 관련되어 있는지 측정하기 위해서, 클러스터끼리의 거리를 계산할 수 있다. 거리를 계산하는 방법은 여러가지가 있는데, 다음과 같은 방법이 대표적이다.

1. Eucleadian Distance
2. Manhattan Distance
3. Correlation Measures

첫 번째로, Eucleadian Distance는 클러스터의 각 유전자에게 주어진 벡터값의 차이를 계산한다. 예를 들어, G1 = [1, 3, 5, 1], G2 = [5, 7, 2, 3]로 주어졌다면 G1과 G2의 거리는 같은 성분의 차의 제곱을 더한 값의 제곱근이 된다.

두 번째 Manhattan Distance는 더 단순하게, 주어진 데이터의 벡터 성분의 차의 절대값이다.

마지막으로 Correlation Measures 방법은, 값의 범위로 -1에서 1까지 제한되며, -1에 가까울수록 완벽하게 다르다는 것을 의미하며, 1에 가까울수록 비슷하다는 것을 의미한다. 그리고, 0은 두 성분의 유사점이 없다는 것을 의미한다.

Correlation Measures에서 거리는 1 - ρ인데, ρ는 Pearson Correlation이라고 하며 다음과 같다.



예를 들어, 대상이 되는 X = (1, 2, 3), Y = (2, 5, 6)이라고 하면, 이들의 ρ 값은 다음과 같다.





위의 G1, G2의 distance를 계산해본다면, ρ 값은 0.089이다.


그러나, 이것은 각 데이터의 성분끼리의 거리를 계산하는 방법이며, 클러스터는 이런 데이터의 집합이다. 그렇다면, 클러스터의 거리는 어떻게 측정할 수 있을까?

클러스터의 거리를 나타내는 방법으로, single-link 방법은 비교 대상이 되는 클러스터의 데이터 중 가장 가까운 거리를 선택하며, complete-link 방법은 이와 반대로 클러스터의 데이터 중 가장 거리가 먼 것을 선택한다. average-distance는 비교 대상이 되는 클러스터를 구성하는 모든 데이터들의 거리의 평균을 구한 값이 된다.

그리고, 클러스터링을 하기 전에, 반드시 데이터를 표준화(normalization) 해야 한다. 특히, 데이터의 변화에 관심있고, 변화폭은 관심이 없을 때 적합하지만, 표준화는 데이터에 노이즈가 많다면 오히려 더 좋지 않은 결과를 보일 수 있다.

특히, 좋은 클러스터링 결과를 얻으려면 데이터 샘플링을 제대로 해야 하는데, 예를 들면 어떤 상황에서도 크게 달라지지 않는 데이터는 그냥 제외해버리는게 낫다는 뜻이다. 또한, 중복을 허용할지, 아니면 어느 정도의 노이즈를 포함해야 할지도 클러스터링 결과에 큰 영향을 미친다. 이 선택이 잘못되면 아무리 좋은 클러스터링 방법이라도 좋은 결과를 보이기 힘들다.