본문 바로가기

Library/Database

Data Mining

데이터가 엄청나게 증가하면서, 필요한 정보를 찾아내는 것은 매우 어려워졌다. 데이터마이닝은 방대한 데이터베이스에서 앞으로의 활동에 대한 결정을 도와주는, 관심 있는 경향이나 패턴을 찾는 것이다. 데이터 웨어하우징은, 이것과 관련되어 있다. 데이터 마이닝(Data Mining) 툴은 사용자의 최소 입력으로 이러한 패턴을 구별해야 한다. 이러한 도구를 통하여 확인된 패턴들은 데이터 분석가들에게 다른 의사 결정 지원 툴들을 이용해서 계속적으로 좀 더 주의 깊게 조사할 수 있는 유용한 정보를 제공한다.

데이터 마이닝은 KDD(Knowledge Discovery from Data)라고 하기도 한다. 현대의 데이터베이스 시스템은 데이터 마이닝 툴을 제공해 주기도 한다 데이터 마이닝은 먼저 데이터를 모아야 하며(Data Warehousing), 이 단계를 Data Cleaning이라 한다. 다음, 관심 있는 패턴을 추출하기 위해 데이터 마이닝 알고리즘을 적용한다. 데이터 마이닝은 예전에는 통계학이나 인공지능에서 주로 다뤄졌지만, 데이터가 폭발적으로 증가하면서 데이터베이스 영역으로 넘어오게 되었다.


즉, 데이터 마이닝 프로세스는 대략 4개의 단계로 나뉘어질 수 있다.

1. 데이터 선택 : 가공되지 않는 전체의 데이터 집합을 시험하여 그 중에 원하는 부분 집합과 관심 있는 애트리뷰트를 식별한다.

2. 데이터 클리닝 : 의미없거나 관계 없는 데이터(noise and outliers)는 삭제하고, 필드(field)의 값들은 공통의 유닛으로 변형되며, 분석을 쉽게 하기 위해 기존의 필드들을 결합하여 새로운 필드들을 만들어낸다. 데이터는 관계형 포맷(relational format)으로 입력되고 몇몇 테이블은 비정규화(denormalization) 단계에서 결합된다.

3. 데이터 마이닝 : 관심있는 패턴을 뽑아내기 위하여 데이터 마이닝 알고리즘을 적용한다.

4. 평가 : 패턴을 엔드 유저에세 이해할 수 있는 형태(예를 들어 시각화를 통해)로 제공한다.