간략한 BLAST 검색 결과에 대한 정보

복잡한 내용을 지나치게 간략화하는 위험을 무릅쓰고 여기서는 BLAST 통계에 대해 몇 가지 사실만을 요약한다(자세한 내용은 BLAST 문서를 참조한다). BLAST 검색의 출력은 S 값과 스코어링(scoring) 알고리즘의 다양한 파라미터, 질의와 데이터베이스의 성질을 바탕으로 찾아낸 매치에 대한 일련의 스코어와 통계를 말한다. S 값은 유사성과 매치의 크기를 측정하는 것이다. BLAST 출력은 E 값으로 순서가 매겨진 일련의 히트(HIT)를 나열한다. E(기대) 값은 같은 크기와 구성으로 된 임의로 생성한 데이터베이스에서 문자열 매칭이 발생하는 가능성을 측정한다.

E 값이 0에 가까울수록 그것이 우연히 발생할 가능성은 더 적어진다. 즉, E 값이 낮을수록 매치는 더 잘 이루어진다. BLASTN에 대한 규칙은 다음과 같다. : 1보다 적은 E 값은 확실한 히트가 될 수 있다. 10 미만의 E 값은 눈여겨 볼만 하지만 절대적인 것은 아니다(물론 단백질은 매우 작은 비율의 유사성만으로도 동종 관계가 될 수 있다. 즉 비율의 유사성은 전형적으로 동종의 DNA에 대해서는 높다)

Reference
James D. Tisdall, Beginning Perl for Bioinformatics, O'Reilly, 박현석 역, 펄로 시작하는 바이오인포매틱스, 한빛미디어

날개의 기억

간략한 BLAST 검색 결과에 대한 정보

티스토리툴바

간략한 BLAST 검색 결과에 대한 정보

'Library/Bioinformatics' Related Articles

티스토리툴바