본문 바로가기

Library/Bioinformatics

Phylogenetic Analysis 2

계통도(Phylogenetic Tree)를 작성하기로 했다면, 가장 먼저 주어진 것은 서로 아무런 관계도 알 수 없는 탁사(taxa)들 뿐이다. 이것을 루트가 결정되지 않은 트리(unrooted tree)라고 하는데, 만약 4개의 탁사가 주어졌다면 여기서 결정할 수 있는 트리의 수는 (2n - 5)! / (2n - 3 * (n - 3)!)이다. 이것은 계통도의 특징 때문인데, 형상만 중요하지 특정 노드의 방향과 같은 것은 중요하지 않기 때문이다.

계통도를 그리고자 한다면 가장 먼저 결정해야 할 것은 루트를 결정하는 것인데, 루트를 어떻게 정하느냐에 따라 계통도의 모습이 크게 달라진다. 루트를 결정하는 방법은 여러가지가 있는데, 대표적으로 outgroup을 이용하는 방법이나 거리(distance)에 기반한 측정 방법 따위가 있을 수 있다.

outgroup을 이용하는 방법은, 분석 대상이 되는 탁사들과 전혀 관련이 없는 임의의 탁사 하나를 정하고, 이것을 바탕으로 분류 작업을 하는 것이다. 그렇다면 outgroup 대상이 되는 탁사와 분석 대상이 되는 탁사는 완전히 다른 가지를 형성하고, 가상의 조상을 가지게 되며, 이 가상의 조상이 루트가 된다. 거리에 기반하여 루트를 결정하고자 한다면, 분석 대상이 되는 탁사들 사이의 가장 긴 거리를 찾아내고, 이것의 중간점(midpoint)를 루트로 정해서 분류 작업을 시작한다.

거리에 기반한 방법에서, 둘 혹은 세 탁사 사이의 거리적인 관계는 다음과 같은 속성을 만족해야 한다.

1. distance(a, b) ≥ 0 : 두 탁사 사이의 거리는 0 보다 커야 한다.
2. distance(a, b) = distance(b, a) : 두 탁사 사이의 거리는 대칭적이어야 한다.
3. distance(a, b) = 0 iff. a = b : a와 b가 동일한 탁사라면, 이들의 거리는 0 이어야 한다.
4. distance(a, c) ≤ distance(a, b) + distance(b, c) : 세 탁사의 거리 관계에서, 한 탁사의 거리는 다른 두 탁사의 거리를 합한 것보다 작아야 한다.

여기서, 이 이상의 관계를 만족할 수도 있는데,

5. Ultrametric Distances, distance(a, b) ≤ max(distance(a, c), distance(b, c)) : 가장 긴 거리를 가지는 두 탁사의 거리가 같다면, 이등변 삼각형의 모습을 띄게 되며, 이것은 유사성(similarity)의 정도와 진화적 상관 관계(evolutionary relationship)가 동일하다는 뜻이 된다.

6. Additive Distances, distance(a, b) + distance(c, d) ≤ max(distance(a, c) + distance(b, d) + distance(a, d) + distance(b, c))

진화 트리에 맞는 거리 관계를 형성하기 위해 metric이나 ultrametric 거리 관계가 성립해야 하며, 추측된 거리 관계가 이런 표준에 맞지 않는다면 정확한 진화 트리를 만드는데 실패할 수 있다.

여기서, 유사성과 진화적인 상관 관계를 구별해야 한다. 즉, 어떤 탁사들이 공통의 조상에서 갈라져 나왔다고 한다면, 이들의 유전적인 상관 관계는 다른 탁사보다 훨씬 가까울 수 있다. 하지만, 이들을 유사성 측면에서 본다면 이들의 유사성은 매우 낮을 수도 있다. 즉, 진화적으로 가까운 관계에 있을지라도 서로 매우 다를 수 있는데, 유전적 상관 관계는, '유전적으로 관계가 있다'라는 것으로, 유사성은 '비슷하거나 동일함'을 가진다는 것을 뜻한다고 할 수 있다.

계통도를 작성하는 방법을 좀 더 넓게 본다면, 크게 최적값에 수렴하는 방법인지, 클러스터링(clustering) 방법에 기반한 것인지, 아니면 거리에 기반한 것인지 분석 대상의 개별적 특징을 이용한 방법인지에 따라 구별할 수 있다. 즉, 다음과 같이 분류할 수 있다.


Computational Method Optimality Criterion Clustering Algorithm 
Characters  Parsimony / Max Likelihood  
 Distances  Min Evolution / Least Squares UPGMA / Neighbor Joining 


Parsimony 방법은 진화적 사건이 최소로 발생하는 경우를 생각하고 계통도를 작성하는 방법이다. 즉, 유전자 서열의 변화가 가장 적은 방향으로 동작한다. 이 방법은 구현하기 쉽고, 꼭 서열 정보에 기반한 데이터가 아니더라도 적용이 가능하다. 다만, 간선이 길어지는 경우가 많고, 엉뚱한 결과가 나올 확률이 높다. 즉, 간선의 길이가 길어질수록 서로 끌어당기는 효과, 펠젠스타인 존(Felsenstein Zone)이 형성될 가능성이 크다.

Max. Likeliyhood는 진화적 과정에서, 진화가 일어날 가능성이 큰 방향으로 그려진다. Parsimony 방법과는 달리 구현이 쉽지 않고 계산이 복잡하다.

이에 비해, 클러스터링에 기반한 방법들은 최적값에 수렴하는 방법보다 훨씬 빠르지만 유사성에 근거하기 때문에 실제 진화 과정과 상관없는 결과를 얻을 수도 있다. 또, 이렇게 결과를 얻었다고 하더라도 이것이 실제 진화 과정과 맞는지 틀린지, 누구도 검증할 수 없다는 문제가 있다.