본문 바로가기

Library/Bioinformatics

RNA Structure Prediction Method

RNA 2차 구조를 예측하는 방법으로, 현재는 Covariance Model(Comparative Sequence Analysis)과 Free Energy Method가 있다. 이외에도 DotPlot 방법과 Base Pair Max 방법이 있지만, 이들은 현재 사용되지 않는다.

Covariance Model은 입력값으로 최소한 2개 이상의 RNA 시퀀스가 필요하며, 이들은 서로 상관되는 염기쌍이 있어야 하며, 이것은 이 시퀀스가 적당히 비슷해야 한다는 뜻이다. 진화적인 관점에서 보존되는 염기가 무엇인지, 그리고 변화된 염기가 무엇인지를 파악하기 위한 것인데, 즉, RNA는 염기의 일부가 변하더라도 동일한 구조를 유지하려는 특징을 이용한 것이다. RNA는 같은 구조를 유지하기 위해 특정 위치의 염기는 함께 변한다(covariance).

Free Energy Method는, 분자 내의 자유에너지가 가장 적을 때 구조가 가장 안정적이 된다는 점에 착안하여 구조를 예측하는 방법이다. 이 방법은 다이나믹 프로그래밍(Dynamic Programming)을 적용하여 가장 좋은 값을 찾을 수 있으며, 입력값으로는 RNA 서열 하나가 필요하고, 에너지 결합 자료가 필요하다. 다이나믹 프로그래밍을 적용할 수 있는 이유는, 이전의 에너지값 형성이 독립적이기 때문이다. 다이나믹 프로그래밍을 적용하기 위해, 다음과 같은 정의를 하자.

e(r(i), r(j)) :  r(i), r(j)에서의 결합 에너지
B(ij) : i ~ j 사이에서의 2차 구조.  이것의 에너지값은 E(B(ij))라고 표기한다.
S(i, j) : r(i), r(j) 사이에서의 최적의 자유 에너지값, 즉 S(i, j) = max E(B(ij))

그리고, 위치 i와 j 사이에서 가능한 내포된 RNA 2차 구조는 다음 4가지 경우가 있다.

1. i가 짝을 짓지 않은 경우. S(i, j) = S(i + 1, j)





2. j가 짝을 짓지 않은 경우. S(i, j) = S(i, j - 1)




3. i - j가 서로 짝을 지어진 경우. S(i, j) = S(i + 1, j - 1) + e(r(i), r(j))




4. i, j가 짝을 지을 수 있지만, 각각에 대해서 대응된 경우는 아닐 때. S(i, j) = max(S(i, k) + S(k + 1, j)) (i < k < j)




이들 4가지 경우에 대해, 가장 좋은 값을 선택하는 방법으로 다이나믹 프로그래밍을 적용하게 된다.

S(i, j) = max(S(i + 1, j), S(i, j - 1), S(i + 1, j - 1) + e(r(i), r(j)), max(S(i, k), S(k +1, j))

이 방법은 이론적인 근거와 실제 상황이 어느 정도 일치하는 모델임에도 불구하고 평균적으로 60% 정도의 일치성을 보인다. 그 이유는, 열역학 데이터 자체에서 데이터 오류가 존재할 수 있기 때문이다. 실제로는 이 방법과 Covariance Model을 혼용해서 구조를 예측한다.