[여러가지 시도]/빅데이터

빅데이터의 데이터마이닝이란??

시간 확보러 2017. 12. 25. 14:20
728x90

안녕하세요. 아프락사쓰입니다.

 

이번 포스팅에서는 데이터마이닝에 대해 알아 보도록 하겠습니다.

 

 

1. 데이터마이닝 개념

 

데이터마이닝은 대용량의 데이터로부터 자동 또는 반자동적인 방법을 통하여 의미 있는 패턴, 규칙, 관계를 찾아내는 것이다. 데이터마이닝은 또한 많은 데이터베이스로부터 지금까지 잘 알려지지 않고 유용하며 활용이 가능한 정보를 추출하는 과정으로 정의가 되기도 한다. 기업이나 정부는 일반적인 업무 활동을 통해 대용량의 데이터를 축적해 왔다. 그러나 빈번하게 발생되는 많은 양의 데이터들은 수치화가 되지 않았을 뿐만 아니라, 수리적 형태보다는 질적인 형태로 저장이 되어 일반적인 통계 방법에 의해 잘 분석과 활용이 될 수 없었다. 이로 인해 그동안 데이터베이스에 포함되어 있는 많은 정보들이 제대로 활용되지 못했다. 하지만 이러한 데이터에는 미처 발견하지 못한 패턴과 전략에 도움이 될 만한 정보들이 들어있을 수 있기 때문에 데이터를 정제하고 가공할 필요성이 생겨나게 된 것이다. 이러한 데이터를 분석하여 기업에 필요한 자산으로 만드는 정보기술이 바로 데이터마이닝이다.

 

 

2. 데이터마이닝의 특징

 

인터넷과 같은 정보기술의 성장 및 기술 발전에 따라 기업들의 데이터베이스의 필요성이 증가하게 되었다. 뿐만 아니라, 기업은 업무의 효율적 수행을 위해 데이터베이스를 이용하고, 데이터베이스의 내용 및 결과를 단순히 활용하는 단계를 벗어나, 데이터 자체의 분석을 통해 패턴을 추출해내고 이 결과를 업무와 생산의 효율성 증대를 위해 이용하는 단계로 넘어서고 있다. 그러나 데이터가 방대해지고 기업의 업무가 복잡해지면서 데이터베이스를 관리하고 자료를 분석하는 전문가의 능력에 한계가 있고, 데이터에 내재된 유용한 지식추출작업을 사람이 손으로 직접 하는 것이 불가능하게 되었다. 이와 같은 문제를 해결하고 대량의 데이터에서 유용한 패턴과 지식을 추출하기 위해 데이터마이닝이 필요하다. 데이터마이닝은 사용자의 경험이나 편결을 배제하고 전적으로 데이터에 기반하여 지식과 패턴을 추출하기 때문에 영역 전문가가 간과해 버릴 수도 있는 지식과 패턴을 찾아낼 수 있다. 데이터마이닝의 활용분야는 카드사의 사기 발견이나, 금융권의 대출 승인, 투자분석, 기업의 마케팅 및 판매데이터 분석, 생산 프로세스 분석, 기타 순수 과학 분야의 자료분석 등 매우 다양하다.

 

 

3. 데이터마이닝의 중요성

 

데이터베이스와 이의 활용은 기업의 정보시스템 설계와 구현에 있어서 가장 핵심적인 구성요소로서 오늘ㄴ라 개발되고 있는 대부분의 기업 정보시스템들의 근간을 이루고 있다. 기업은 업무의 효율적인 수행을 위해 데이터베이스를 단순히 활용하는 단계를 벗어나, 데이터 자체의 분석을 통해 고객행동 패턴을 추출해내고 그 결과를 업무와 생산의 효율성 증대를 위해 이용하고 있다. 그러나 데이터가 방대해지고 복잡해지면서, 데이터에 내재된 지식의 추출을 해당 분야의 전문가라 하더라도 직접 실행하기에는 불가능하게 되었다. 이러한 문제를 해결하기 위하여 데이터마이닝의 필요성이 대두되고 있다.

최근 디지털 정보기술의 급속한 발전은 다양한 시장공간을 창출시키고 있으며, 특히 인터넷 매체의 빠른 확산은 새로운 경제현상을 만들어 낼 뿐만 아니라 기업의 경쟁전략을 변화시키고 있다. 이러한 시장 환경의 변화 속에서 과거와 달리 제품이나 서비스에 대한 고객들의 욕구 또한 더욱 다양화되어 점차적으로 기업에 대한 자신들의 영향력을 증대시키고 있다. 기업 경쟁력 강화의 중요한 이슈가 되어버린 개인화/개별화의 실행을 위하여 정보기술을 기반으로 고객의 다양한 정보를 획득함과 동시에 고객과의 밀접한 관계를 유지함으로써 기업의 수익성을 증대시키는 고객관계관리에 대한 관심과 활용에 대한 필요성은 점점더 높아지고 있다. 고객관계관리의 여러 부야 가운데에서도 제품을 구매한 기존 고객의 정보를 기반으로 고객에게 맞는 새로운 제품이나 서비스를 제안하기 위하여 데이터마이닝을 이용하여 고객의 구매 패턴을 파악하고 의도를 예측하는 것은 오늘ㄴ라 실질적인 판매 전략을 수립하는 마케팅 분야에서 상당히 큰 비중을 차지하고 있다 이와 같이 고객관계관리에서는 효과적인 고객관리 전략을 개발하고 지속적으로 수행하는 능력이 중요하며, 이를 위해서는 고객정보를 분석하는 도구로서 데이터마이닝의 사용이 요구되고 있다.

 

 

4. 데이터마이닝 기법

 

데이터마이닝은 학문적으로 통계, 전산, 경영 등 데이터 분석과 관련된 다양한 학문이 융합되어 탄생된 융합학문이라고 평가된다. 주요한 데이터마이닝 기법으로는 정형 데이터 분석을 주로 다루는 연관관계분석 기법, 의사결정나무 기법, 인공신경망 기법, 사례기반추론, 군집분석 기법 등이 있으며, 최근에 관심을 받고 있는 비정형 데이터 분석으로 웹 문서, 소셜 데이터를 주로 분석하는 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝, 소셜 네트워크 분석 등이 있다. 또한 데이터를 시각화해서 보여주는 데이터 시각화 기법 등이 있다.

 

 

5. 데이터마이닝 분석도구/프로그램

 

데이터마이닝 분석에 이용되는 분석도구로는 통계 분석 도구인 R이 있으며, SAS사에서 제공하는 Enterprise Miner, SPSS사에서 제공하는 Clementine이 많이 알려져 있다. 그 밖에 Weka와 Rapid Miner 등의 다양한 무료 프로그램이 있다. Python은 텍스트 마이닝에 주로 쓰이는 프로그램이며 Google Chart API, Flot, D3, Processing 등의 다양한 데이터 시각화 프로그램들이 있다. 또한 더욱 많은 데이터마이닝 관련 업체들이 간편하게 데이터마이닝 기법을 이용할 수 있게 하는 서비스를 무료 또는 저렴한 가격에 제공하고 있다.

 

728x90