일반적으로 각각의 뉴클리오타이드(nucleotide)가 나타날 확률은 이론상으로 1 / 4이다. 만약, 2개씩의 뉴클리오타이드가 짝 지어 존재해야 한다면 그 경우의 수는 4^2 = 16이며, 3개씩 뉴클리오타이드가 짝 지어져서 존재해야 한다면 4^3 = 64이다. 그렇지만, 실제로 각각의 뉴클리오타이드들이 나타날 확률은 동일하지 않다.
즉, 실제로 CG 서열은 상당히 낮은 빈도로 출현하는데, 진핵 생물체에서 CG 서열은 TG 서열로 변경되는 경우가 있기 때문이다. 특히, C-G 쌍으로 이루어진 뉴클리오타이드 짝이 아니라 그냥 인접해있는 경우를 관찰할 수 있는데, 이 CG 서열은 서로 연관된 두 가닥의 DNA 서열의 상보적인 짝이 아니다. 이들은 특히 프로모터(promotor) 주변에 많이 존재하며, 이것을 CG Island라 한다. 즉, 이들은 DNA 가닥의 서로 상보적인 짝이 아닌, 단순히 CG 순서로 나타나는 짝이며, 특히 CpG로 표기한다. CG Island의 길이는 수백 bp에서 수천 bp까지 굉장히 다양하다. CG Island에서는 CG 서열을 굉장히 많이 관찰할 수 있으며, AA, AG, AT, ....와 같은 짝도 다른 출현 빈도를 가진다.
만약, 비교적 짧은 길이의 어떤 유전자 서열이 주어졌다고 하자. 이 CG 서열이 CpG에서 온 것인지, 아니면 그냥 다른 영역에서 온 것인지 알아야 할 필요가 있다고 하자. 또, 긴 길이의 서열이 주어졌을 때 CpG Island가 어디에 있는지 찾고 싶은 경우도 있을 것이다. 프로모터 주변에서는 CpG Island가 많이 존재하기 때문에, CpG Island가 어디에 있는지 찾을 수 있다면 이것은 유전자 서열을 분석하는데 많은 도움을 준다. 여기서 HMM(Hidden Markov Model)을 적용할 수 있는데, 주어진 시퀀스를 보고 어디에서 왔는지 파악해야 한다. 그러나 여기에는 중요한 사항이 있다.
이 문제를 해결하기 위해 아주 간략화한 모델을 사용한다고 해보자. 여기서 CGCCG라는 서열을 보고, 어느 것이 CpG Island에서 왔는지 파악하려면, CpG Island 상태에서 방출된 것과, 그렇지 않은 상태에서 각 뉴클리오타이드가 방출될 확률을 알아야 하는데, 이것은 경험적으로 밖에 측정할 수 없다. 즉, 트레이닝 데이터(Training Data)가 필요하며, 이 값을 결정하는 것은 HMM 모델의 파라미터 값을 추측하는 Learning Problem에 속하는 문제이다.
이 문제에 대해서는 2가지 시나리오가 존재하는데, CpG Island가 어디에 있는지, 언제 바뀌는지 알고 있는 경우, 그리고 아무 것도 알려져 있지 않은 경우로 나눌 수 있다. 즉 CpG Island가 어디에 있는지 알지 못하고, 언제 바뀌는지조차 알아내지 못하는 경우이다.
이것을 일반화한다면, Learning Problem에 있어서 이미 올바른 답이 알려져 있는 경우와, 답이 알려져 있지 않아서 P(x | θ)를 최대로 하는 θ 값을 추측해야 하는 경우로 나눌 수 있다고 할 수 있다.
즉, 실제로 CG 서열은 상당히 낮은 빈도로 출현하는데, 진핵 생물체에서 CG 서열은 TG 서열로 변경되는 경우가 있기 때문이다. 특히, C-G 쌍으로 이루어진 뉴클리오타이드 짝이 아니라 그냥 인접해있는 경우를 관찰할 수 있는데, 이 CG 서열은 서로 연관된 두 가닥의 DNA 서열의 상보적인 짝이 아니다. 이들은 특히 프로모터(promotor) 주변에 많이 존재하며, 이것을 CG Island라 한다. 즉, 이들은 DNA 가닥의 서로 상보적인 짝이 아닌, 단순히 CG 순서로 나타나는 짝이며, 특히 CpG로 표기한다. CG Island의 길이는 수백 bp에서 수천 bp까지 굉장히 다양하다. CG Island에서는 CG 서열을 굉장히 많이 관찰할 수 있으며, AA, AG, AT, ....와 같은 짝도 다른 출현 빈도를 가진다.
만약, 비교적 짧은 길이의 어떤 유전자 서열이 주어졌다고 하자. 이 CG 서열이 CpG에서 온 것인지, 아니면 그냥 다른 영역에서 온 것인지 알아야 할 필요가 있다고 하자. 또, 긴 길이의 서열이 주어졌을 때 CpG Island가 어디에 있는지 찾고 싶은 경우도 있을 것이다. 프로모터 주변에서는 CpG Island가 많이 존재하기 때문에, CpG Island가 어디에 있는지 찾을 수 있다면 이것은 유전자 서열을 분석하는데 많은 도움을 준다. 여기서 HMM(Hidden Markov Model)을 적용할 수 있는데, 주어진 시퀀스를 보고 어디에서 왔는지 파악해야 한다. 그러나 여기에는 중요한 사항이 있다.
이 문제를 해결하기 위해 아주 간략화한 모델을 사용한다고 해보자. 여기서 CGCCG라는 서열을 보고, 어느 것이 CpG Island에서 왔는지 파악하려면, CpG Island 상태에서 방출된 것과, 그렇지 않은 상태에서 각 뉴클리오타이드가 방출될 확률을 알아야 하는데, 이것은 경험적으로 밖에 측정할 수 없다. 즉, 트레이닝 데이터(Training Data)가 필요하며, 이 값을 결정하는 것은 HMM 모델의 파라미터 값을 추측하는 Learning Problem에 속하는 문제이다.
이 문제에 대해서는 2가지 시나리오가 존재하는데, CpG Island가 어디에 있는지, 언제 바뀌는지 알고 있는 경우, 그리고 아무 것도 알려져 있지 않은 경우로 나눌 수 있다. 즉 CpG Island가 어디에 있는지 알지 못하고, 언제 바뀌는지조차 알아내지 못하는 경우이다.
이것을 일반화한다면, Learning Problem에 있어서 이미 올바른 답이 알려져 있는 경우와, 답이 알려져 있지 않아서 P(x | θ)를 최대로 하는 θ 값을 추측해야 하는 경우로 나눌 수 있다고 할 수 있다.