본문 바로가기

Library/Bioinformatics

간략한 BLAST 검색 결과에 대한 정보

복잡한 내용을 지나치게 간략화하는 위험을 무릅쓰고 여기서는 BLAST 통계에 대해 몇 가지 사실만을 요약한다(자세한 내용은 BLAST 문서를 참조한다). BLAST 검색의 출력은 S 값과 스코어링(scoring) 알고리즘의 다양한 파라미터, 질의와 데이터베이스의 성질을 바탕으로 찾아낸 매치에 대한 일련의 스코어와 통계를 말한다. S 값은 유사성과 매치의 크기를 측정하는 것이다. BLAST 출력은 E 값으로 순서가 매겨진 일련의 히트(HIT)를 나열한다. E(기대) 값은 같은 크기와 구성으로 된 임의로 생성한 데이터베이스에서 문자열 매칭이 발생하는 가능성을 측정한다.

E 값이 0에 가까울수록 그것이 우연히 발생할 가능성은 더 적어진다. 즉, E 값이 낮을수록 매치는 더 잘 이루어진다. BLASTN에 대한 규칙은 다음과 같다. : 1보다 적은 E 값은 확실한 히트가 될 수 있다. 10 미만의 E 값은 눈여겨 볼만 하지만 절대적인 것은 아니다(물론 단백질은 매우 작은 비율의 유사성만으로도 동종 관계가 될 수 있다. 즉 비율의 유사성은 전형적으로 동종의 DNA에 대해서는 높다)


Reference
James D. Tisdall, Beginning Perl for Bioinformatics, O'Reilly, 박현석 역, 펄로 시작하는 바이오인포매틱스, 한빛미디어