본문 바로가기

Library

Genome Sequencing - Shotgun Sequencing 샷건 시퀀싱(Shotgun Sequencing)은 민간 기업인 셀레라 지노믹스(Celera Genomics)가 사용한 시퀀싱 방법이다. 셀레라 지노믹스의 창립자는 크랙벤터 박사이며, 92년까지 HGP(Human Genome Project)의 일원이었다. 그는 샷건 방법으로 더 효과적인 시퀀싱을 할 수 있다고 주장했지만 받아들여지지 않자 독자적으로 셀레라 지노믹스를 설립해서 자신이 주장한 샷건 방식으로 인간 유전자 지도를 만드는 작업에 착수하게 된다. 샷건 시퀀싱 방법은 다음과 같다. 먼저, 분석 대상이 되는 유전체를 여러개 준비하고, 이것을 각각 2000 bp와 10000 bp 단위로 잘라낸 그룹을 준비한다. 2000 bp로 잘려진 염기 서열과, 10000 bp로 잘려진 서열 각각을 플라스미드에 삽입한다.. 더보기
Genome Sequencing - BAC to BAC Human Genome을 밝히기 위해 사용된 방법은, HUGO 주도의 BAC to BAC 방식과 민간 기업인 셀레라 지노믹스(Celera Genomics)가 사용한 샷건(Whole Genome Shotgun) 방식이 있다. 먼저, BAC to BAC 방식에 대해 알아보자. BAC to BAC 방식은 분석 대상이 되는 유전체를 임의로 150000 bp 단위로 잘라낸다. 그리고 이렇게 잘려진 각각의 염기 서열 조각들을 임의의 BAC(Bacteria Artificial Chromosome)에 삽입한다. 그리고, 각각의 BAC를 1500 bp 단위로 임의로 절단하여 M13이라는 다른 BAC에 삽입한다. 그리고, 이 M13이라는 BAC에서 시작 부분의 500 bp를 읽는다. 그리고, 이렇게 잘려진 염기 서열들의 .. 더보기
Clustering Method 어떤 클러스터링 방법을 사용하던지, 모든 데이터를 대상으로 클러스터링을 하는 것은 아니다. 특히, 전체 데이터는 노이즈가 심할 수 있기 때문에, 차이에 관계없이 고정적인 결과를 보이는 데이터는 제외하는 것이 좋다. k-means 클러스터링 방법은 클러스터의 거리를 계산할 때 Eucleadian Distance를 가장 자주 쓴다. 이 방법은 먼저 임의의 k개의 위치를 선택하고, 이 위치에 대해 데이터의 거리를 계산하여 초기 k개의 클러스터 그룹을 형성한다. 다음, 이 클러스터의 평균점을 계산하고, 이 평균점에 대해 다시 모든 데이터의 거리를 계산하여 더 좋은 클러스터를 형성한다. 이 과정을, 클러스터 사이의 데이터 이동이 최소가 될 때까지 반복한다. 이 방법은 주변의 몇몇 노이즈에 의해 클러스터링 결과가 .. 더보기
Distance of Clusters 클러스터끼리 서로 얼마나 관련되어 있는지 측정하기 위해서, 클러스터끼리의 거리를 계산할 수 있다. 거리를 계산하는 방법은 여러가지가 있는데, 다음과 같은 방법이 대표적이다. 1. Eucleadian Distance 2. Manhattan Distance 3. Correlation Measures 첫 번째로, Eucleadian Distance는 클러스터의 각 유전자에게 주어진 벡터값의 차이를 계산한다. 예를 들어, G1 = [1, 3, 5, 1], G2 = [5, 7, 2, 3]로 주어졌다면 G1과 G2의 거리는 같은 성분의 차의 제곱을 더한 값의 제곱근이 된다. 두 번째 Manhattan Distance는 더 단순하게, 주어진 데이터의 벡터 성분의 차의 절대값이다. 마지막으로 Correlation Me.. 더보기
Clustering and Classification DNA microarrary와 같은 실험을 통해서 얻어진 대량의 데이터를 처리하는 방법 중 하나로, 클러스터링(clustering)과 분류(classification)가 있다. DNA microarray를 사용한 데이터 처리는 언뜻 생각하기에는 영상 처리 관련 기술이 중요할 것 같지만, 실제로 영상 처리보다 통계적 패턴 처리가 데이터의 품질을 좌우한다. 클러스터링의 경우, 대상이 되는 데이터는 유전자이며, 이것을 적절하게 그룹화하는 것인데, 비슷한 유전자끼리 얼마나 잘 모을 수 있는가가 관건이 된다. 클러스터링 방식을 나눠보면, 작은 것에서부터 큰 것으로 모아가는 merge 방식과, 하나의 묶음에서 점차 잘라내가는 splitting 방식으로 구별할 수 있는데, 대표적으로 다음과 같은 클러스터링 방법이 있.. 더보기
Cosequential Processing Cosequential Processing이란, 2개 이상의 리스트를 입력으로 받아서, 각각의 리스트에 대해 선형적인 작업을 한 뒤 단일한 하나의 출력을 내는 것을 말한다. 왜 이런 작업이 필요한 것일까? 예를 들어, 현재 사용 가능한 메모리보다 다루어야 하는 데이터가 훨씬 크다면, 어쩔 수 없이 분할된 형태로 읽어들일 수 밖에 없을 것이다. 그러나, 만약 전체 데이터에 대해 정렬 작업을 해야 한다면 이것은 복잡한 문제가 된다. 어떤 정렬 알고리즘은 데이터 전체가 메모리에 올려져 있어야 하며, 전체 데이터의 일부분만 메모리에 올려져 있는 이와 같은 경우, 그러한 알고리즘은 사용할 수 없다. 즉, 전체가 아닌, 각각의 분할에 대해 작업을 한 뒤 그것을 합쳐서 하나의 완전한 형태의 출력물을 내야 하는데, 그.. 더보기
Gene Expression 유전자 발현(Gene Expression)은 유전자로부터의 정보에 의해 기능적 유전 물질의 종합체로서 사용되는 과정을 말한다. 여기서의 결과로 생성되는 물질은 주로 단백질이지만, rRNA 유전자나 tRNA 유전자와 같은 단백질을 코딩하지 않는 유전자는 기능적 RNA(functional RNA)라고 한다. 유전자 발현의 처리 과정은 전사(Transcription)나 번역(Translation), 그리고 단백질의 Post Translation Modification을 포함한 몇몇 단계로 분할될 수 있다. Reference http://en.wikipedia.org/wiki/Gene_expression 더보기
DNA microarray DNA microarray는 분자 생물학이나 의약에서 사용되는 다층 기술이다. 이것은 기능(features)이라 불리는, 특정 DNA 서열의 아주 작은 부분을 포함하고 있는 DNA 올리고뉴클리오타이드(oligonucleotide) 배열의 집합으로 구성된다. 올리고뉴클리오타이드는 핵산 중합체(nucleic acid polymer)이며, 전형적으로 20개나 그 이하의 염기이다. 중합체란 공유 결합을 가진, 반복되는 구조체로 이루어진 커다란 분자를 말한다. 이것은, 특정 조건 아래에서 cDNA나 mRNA(타켓이라 불리는) 샘플을 하이브리드 하기 위한 probes로서의 DNA 원소나 유전자의 작은 지역(section)이 될 수 있다. 탐색-타켓 하이브리드는 타켓에서의 핵산 서열의 발현 관계를 결정하기 위한 라벨.. 더보기
DNA Hybridization and Nucleic Acid Hybridization DNA Hybridization은 일반적으로 DNA 서열의 풀에서 유전적 유사성을 측정하기 위한 분자 생물학적 기법을 뜻한다. 즉, 이것은 흔히 두 종 사이의 유전적 차이를 시험하기 위한 것이다. 몇몇 종들이 이와 같은 방법으로 비교될 때, 그 유사성에 의해서 각 종들은 진화 가지에서 어디에 위치해있는지를 대략적으로 결정할 수 있다. 이 기법의 선구자인 Charles Sibley와 Jon Ahlquist는 조류와 영장류의 진화론적인 관계를 알아보기 위해 이 방법을 사용했다. 비평가들은 이 방법이 어떤 기관들에서 orthologous 관계에 있는 서열에 대해서 차이를 측정하려는 어떠한 시도라도, 그 기관에서의 paralogous 관계에 있는 서열들의 Hybridization에 의해서 압도되기 때문에 가까운.. 더보기
Beyond Record Structure 파일 구조와 파일 처리의 역사는 컴퓨터 하드웨어와 소프트웨어와 함께 병행해왔다. 파일 처리가 처음으로 컴퓨터에서 일반화되었을 때는 마그네틱 테이프와 펀치 카드가 파일을 저장하기 위한 주된 수단이었다. 메모리 공간은 매우 작았고, 프로그래밍 언어는 원시적이었다. 프로그래머나 사용자나 테이프나 카드에 나타난 그대로 파일 데이터를 봐야 했다. 데이터가 메모리에 올려진 이후에도, 데이터를 보고 다룰 수 있는 툴은 조잡했고 마그네틱 테이프 자체를 반영하는 형태일 뿐이었다. 데이터 처리란, 전통적으로 필드와 레코드를 처리하는 것을 의미했다. 점차, 컴퓨터 사용자들이 컴퓨터가 단지 필드와 레코드보다 더 많은 것을 처리할 수 있다는 것을 인식하기 시작했다. 예를 들어, 컴퓨터는 소리를 처리하거나 전송하거나, 이미지를 .. 더보기