[여러가지 시도]/빅데이터

빅데이터의 비정형 데이터마이닝이란??

시간 확보러 2017. 12. 25. 15:30
728x90

안녕하세요. 아프락사쓰입니다.

 

소셜 미디어에서 얻는 데이터는 대부분이 비정형 데이터마이닝이기에, 언급되고 있는 빅데이터 분석은 주로 비정형 데이터를 분석해야 합니다.

이번 포스팅에서는 비정형 데이터의 정의 등에 대해 알아보도록 하겠습니다.

 

 

1. 비정형 데이터

 

비정형 데이터란 글자 그대로 정형화 되지 않은 데이터로서, 구체적으로 미리 정의된 데이터 모델을 가지고 있지 않은 데이터를 말한다. 대표적인 비정형 데이터의 예로는 아주 많은 양의 데이터를 가지고 있으면서 구조와 형태가 다르고 정형화 되지 않는 문서, 영상, 음석 등을 들 수 있다. 문서의 경우만 살펴봐도 텍스트가 대부분이나 그 속에는 다른 그림이나 표 등이 들어 있어서 구분하기 힘들게 하는 불규칙성이 있는 의미를 파악하기 애매하기 때문에 기존의 일반적인 프로그램을 적용하기는 어렵다. 게다가 최근 들어 인터넷과 스마트폰의 대중화에 힘입어 이메일, 블로그, 트위터, 페이스북등과 같은 인터넷 서비스를 모바일 환경에서도 널리 사용함에 따라 여기서도 새로운 형태의 비정형 데이터가 엄청난 양으로 맹리 생성되고 있기 때문에 이들을 활용하기 위한 진화된 방법들이 계속해서 모색되고 있다. 따라서 비정형 데이터의 예로는 책, 저널, 문서, 메타데이터, 건강 기록, 오디오, 비디오, 아날로그 데이터, 이미지, 파일뿐만 아니라 이메일 메시지나 웹페이지, 워드 프로세서 문서 등의 내용에 해동되는 비정형 텍스트까지도 들 수 있다. 그 뿐 아니라 약어, 속어, 신조어 등이 포함된 채팅, 이메일, SMS 용어와 같은 비표준텍스트까지도 포함시킬 수 있다.

비정형 데이터는 보통 전자 문서 속에서 발견되므로 전체 문서를 분류할 수 있는 목차나 문서관리 시스템을 그 문서 내에서부터 데이터를 이동하거나 조작하는 것보다 더 자주 사용한다. 따라서 문서 관리를 통하여 수집된 문서들에 대한 연결 구조를 만들어 놓고 이것을 이용하여 정보검색을 용이하게 하는 수단을 제공받을 수 있다. 검색 엔진은 이러한 데이터, 특히 텍스트를 통해서 인덱스를 붙이고 검색하는 대중적인 도구의 역할을 해왔다.

비정형 데이터는 불규칙 정도에 따라 반정형 데이터로 구분하기도 한다. 반정형 데이터는 관계형 데이터베이스나 다른 형태의 데이터 테이블로 조직된 데이터 모델의 정형적 구조를 따르지 않지만 어의적 요소를 분리시키고 데이터 내의 레코드와 필드의 계층 구조가 있게 하는 태그나 다른마커를 포함하고 있는 정형 데이터이다. 따라서 스스로 자신의 구조를 기술하고 있는 거승로 알려져 있다. 반정형 데이터 속에는 클래스에 속하는 속성들은 순서에 상관없이 서로 묶을 수 있고 다른 속성을 포함시킬 수도 있다.

반정형 데이터는 계속 적으로 발생되고 있다. 그것은 인터넷의 확산으로 전반적인 텍스트 문서와 데이터베이스가 더 이상 고정된 특정 데이터 형식만들 고집하고 있지 않고 오히려 정보를 교환하기 위한 새로운 형태의 매체를 필요로 하고 있기 때문이다. 비교적 최근에 등장한 객체지향 데이터베이스에서의 데이터는 반정형 데이터가 많다. 그리고 마크업 언어, 이메일, EDI 등의 데이터 형태는 모두 반정형 형식이다. 데이터 구조와 데이터를 스스로 기술하는 수단을 가진 비교적 최근에 나온 마크업 언어로는 XML이 있다. XML은 웹 상에서 공유될 어떤 종류의 데이터를 정의하는 방법에 관한 일련의 구조화된 규칙이다. 이 규칙은 XML 스키마로 정의하고 데이터는 스키마의 규칙에 따라 표현할 수 있으므로 데이터베이스에 들어있는 데이터까지 표현하는 것이 가능하다. XML은 SOAP 원리를 유용하도록 개발하는 웹서비스에 의해서 대중화 되어 왔다.

XML로 기술된 데이터 형식은 관계형 데이터베이스의 테이블과 행과 같은 기능적 수준에서 구조적 엄격함이 못미치는 인상을 가지게 하므로, 이전에는 비저형 형태로 보았지만, 실제로는 XML 스키마에 의해 강제하고 상업 또는 고객 프로그램 둘 다에 의해 처리되는 데이터베이스 스키마와 같은 엄격함을 가진 것으로 설계될 수 있다. 따라서 내재적으로 반정형 데이터 형태로 보는 XML에 대한 관점은 그것으로 데이터 중심 어플리케이션을 폭넓게 사용하는데 이써서 장애가 되어왔지만 실제로 XML은 아주 엄격한 요소 구조와 데이터 형식뿐 아니라 인간 중심 흐름과 계층구조를 가능하게 하는 '유연성 있는 구조'로 언급될 수도 있다.

 

 

2. 비정형 데이터 분석과 마이닝

 

비정형 데이터 속의 패턴을 발견하거나 비정형 데이터를 번역하기 위해 데이터마이닝, 텍스트 분석, 비표준 텍스트 분석 등과 같은 기법에 의해 다양한 방법을 제공하게 된다. 텍스트를 정형화하기 위한 일반적인 기법으로는 메타데이터로 태그를 직접 달거나, 고도의 텍스트 마이닝 기반 정형화를 위해 태그를 텍스트 속의 단어와 스피치의 한 부분이 대응되게 붙이는 방법이 있다.

기계로 처리할 수 있는 구조를 만드는  소프트웨어를 이용하여 언어적, 청각적, 시각적 구조가 인간 커뮤티케이션의 모든 형태로 내재되도록 하고, 알고리즘을 이용하여 이러한 내재된 구조를 단어 형태로 검사하는 방법을 적용하여 텍스트나 문장 구문, 그리고 다른 소규모 및 대규모 패턴으로부터 의미를 추론할 수 있다. 그러면 비정형 데이터의 모호함을 잘 발견하는데 사용되는 타당성 기반 기법을 보다 잘 식별할 수 있게 하는 것을 향상시키거나 태그를 달 수 있게 할 수 있다. 전달되고 있는 주요 내용이 정의된 구조를 가지고 있지 않지만, 일반적으로는 스스로 구조를 갖고 있는 객체로서 정형 데이터와 비정형 데이터가 섞여 있는 경우, 여전히 비정형 데이터로 참조되는 개체로 본다. 예를 들어, HTML 웹페이지는 태그들로 이루어져있고 HTML 마크업은 이 태그들이 해석되어 유일하게 표현하는 것을 대표적으로 제공한다. 그것은 그 페이지의 정보 내용을 자동으로 처리하는 것을 지원하는 방식으로 태그 된 요소의 의미나 기능 정보까지는 획득하지 못한다.

빅데이터 환경에서 거의 80% 이상이 비정형 데이터이므로 빅데이터에서의 데이터 마이닝은 비정형 데이터마이닝에 초점이 맞추어져 있다. 일반적으로 빅데이터에서 데이터 마이닝은 통계 기반의 데이터 분석 도구를 사용하거나 OLAP 분석을 통해 데이터를 다양한 각도의 관점으로 조명하여 의미 있는 것으로 해석하는 것에 덧붙여 데이터 사이의 숨겨진 관계와 패턴, 경향 등을 추출하는 것을 말한다. 이것은 비정형 데이터를 일단 정련 과정을 통해 정형 데이터로 만들고 난 다음에 일반적인 데이터마이닝 작업인 부류, 군집화, 회귀분석, 요약, 이상감지 등에 적용하여 의미 있는 정보를 발굴해낸다는 것이다.

비정형 데이터마이닝 과정을 간단히 살펴보면 보통 탐색, 이해, 분석의 과정을 거친다. 탐색 과정에서는 질의, 집합연산, 재귀 및 팽창 등의 작업을 수행한다. 이해 과정에서는 통계, 분배, 특징선택, 군집화, 분류편집, 시각화 등의 작업을 수행한다. 그리고 분석 과정에서는 경향, 상관관계, 분류 등의 작업을 수행한다.

정제된 데이터베이스를 기반으로 일정한 기준이 적용된 상식적인 범위에서 부분적인 데이터를 다루는 정형 데이터 마이닝의 한계를 뛰어넘는 대ㅛ적인 비정형 데이터마이닝 기법으로는 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝, 소셜 네트워크 분석 등이 있다.

728x90