본문 바로가기

Library/Bioinformatics

서열 데이터의 표현

DNA는 네 개의 블럭으로 구성되어 있다. 바로 핵산을 일컫는 것으로 뉴클리오타이드 또는 염기라고도 부른다. 단백질은 20개의 블럭으로 구성되어 있으며 이들을 아미노산 또는 잔기(residues)라고 하고 단백질 조각은 펩타이드라고 한다. DNA와 단백질은 모두 기본적으로 끝과 끝이 연결된 블럭에서 만들어진 중합체이다. 따라서 간단하게 염기, 또는 아미노산의 서열만으로 DNA 분자 또는 단백질의 구조를 요약할 수 있다.

다음은 염기의 종류를 나타내고 있는데, 당을 추가하면 아데노신(adenosine), 구아노신(guanosine), 씨티딘(cytidine), 티미딘(thymidine), 유리딘(uridine)과 같은 뉴클리오타이드를 얻고 더 나아가 인산염을 추가하면 아데니릭산(adenylic acid), 구아니릭산(guanylic acid), 씨티디릭산(cytidylic acid), 티미디릭산(thymidylic acid), 유리디릭산(uridylic acid)과 같은 뉴클리오타이드를 얻을 수 있다. 핵산은 화학적으로 뉴클리오타이드와 밀접한 관련이 있다. 펩타이드는 아미노산 몇 개가 연결되어 있는 것이다. 더욱 긴 사슬은 폴리펩타이드라고 한다. 단백질은 한 개 혹은 그 이상의 폴리펩타이드로 구성되어 있는 생물학적, 기능학적 단위이다. 잔기는 폴리펩타이드 사슬에 있는 아미노산이다.

A    Adenine
C    Cytosine
G    Guanine
T    Thymine
U    Uracil
M    A or C (amino)
R    A or G (purnine)
W    A or T (weak)
S    C or G (strong)
Y    C or T (pyrimidine)
K    G or T (keto)
V    A or C or G
H    A or C or T
D    A or G or T
B    C or G or T
N    A or G or C or T (any)

위의 핵산 기호에는 네 개의 기본 핵산의 기호가 나와 있다. 표에는 두 개, 세 개, 혹은 네 개로 이루어진 핵산 그룹을 표현할 수 있는 단일 기호도 있다. 기호 A, C, G, T는 DNA를 구성하고 있는 핵산을 나타낸다. DNA가 리보핵산(RNA)으로 전사할 때는 T가 U로 대체된다. N은 서열기(sequencer)가 확실히 염기를 결정할 수 없을 떄와 같이 '알려지지 않은 것'을 나타내는 기호이다.


Reference
James D. Tisdall, Beginning Perl for Bioinformatics, O'Reilly, 박현석 역, 펄로 시작하는 바이오인포매틱스, 한빛미디어