[여러가지 시도]/빅데이터

빅데이터 분석 프로세스란?? (경영 빅데이터 분석사 공부 中)

시간 확보러 2017. 12. 22. 11:53
728x90

안녕하세요. 아프락사쓰입니다.

 

빅데이터의 분석이란 어떤 프로세스를 가지고 있을까요?

저와 같은 비전공자에게는 빅데이터 분석이라고하면 너무 막연하기만 합니다.

저와 같은 분들을 위하여 포스팅하였습니다.

 

1. 분석 프로세스의 이해

 

 분석은 새로운 개념이 아니며 이미 오래전부터 여러 영역에서 효과적으로 활용해왔다. 일반적으로 분석은 단계적으로 진행된다. 예를 들어, 매우 분석적인 마케팅 조사의 경우 조사 목적 도출, 조사 설계, 모집단 및 표본 설계, 데이터 수집, 데이터 분석, 결과 제시 등의 단계로 진행된다. 또한 결함 발생 수를 100만 개당 3~4개 이하로 줄이고자 하는 식스 시그마 역시 매우 체계적인 과정으로서 두 가지 분석방법이 있다. 이 중 DMAIC방법론이 가장 일반적인 방법론인데, 이는 문제정의(Define), 측정(Measure), 분석(Analyze), 개선(Improve), 관리(Control)의 5단계를 거쳐 혁신 프로세스를 완료한다. 종합해 볼때 분석 프로세스는 문제의 인식에서 결과 제시까지 다음과 같이 여섯 단계로 정리 할 수 있다.

 

문제인식 -> 관련연구 조사 -> 모형화(변수 선정) -> 자료 수집(변수 측정) -> 자료분석 -> 결과제시

 

1.1 문제 인식

분석의 출발점은 문제를 인식하고 이를 해결하고자 하는 의지라 할 수 있다. 개인이나 기업이 갖고 있는 해결 과제나 현재 직면하고 있는 주요 의사결정 문제는 당연히 분석의 주제이다. 이런 주제가 자신에게 프로젝트로 주어질 수도 있고 아니면 자신이 자발적으로 해결하고자 연구가 될 수도 있다. 문제 인식 단계에서 가장 중요한 것은 문제가 무엇인지, 왜 이 문제를 해결해야 하는지, 문제 해결을 통해 무엇을 달성할 것인지를 명확히 하는 것이다.

 

분석의 핵심은 인식된 문제에 대해 관련된 데이터를 수집, 분석하여 문제해결에 필요한 정보를 얻는 것이다. 이때 문제는 가설의 형태로 표현하면 문제가 명확해지며, 분석 과정을 통해 검정이 가능해진다. 일반적으로 가설이란 어떤 사실을 설명하거나 어떤 이론 체계를 검정하기 위하여 설정한 가정을 말한다. 그러나 분석을 위한 가설은 통상 변수들간의 관계에 대한 잠정적인 믿음이나 주장으로, 분석을 통하여 실행에 도움이 되는 정보 가치를 얻게 된다. 일반적으로 가설은 '소득 소준이 높으면 문화 소비 비용도 클 것이다'라는 형태로 표현할 수 있다.

 

1.2 관련연구 조사

문제가 인식되면 다음으로 관련되는 각종 문헌(논문, 책, 보고서, 잡지 등)들을 조사해야 한다. 문제와 관련되는 기존의 연구들과 저서들을 찾아 검토하고 그 내용을 요약, 분류하여 완전히 파악하는 과정을 거치면 해결하고자 하는 문제가 더욱 명확해진다. 그리고 개괄적으로 어떤 요인(변수)들이 중요하게 작용하는지를 파악할 수가 있게 된다.

 

여기에서 변수는 어떤 관계나 범위 아에서 여러 가지 값으로 변할 수 있는 수를 말한다. "투표결과가 이번 협상에서 중요한 변수가 될 것이다.", "여론이 정책 결정에 변수로 등장하였다."는 등의 예문에서와 같이 사람, 상황, 행위 등의 속성을 나타낸다. 성병, 주소, 학력, 소득수준, 출신지 등이 그 예이다. 관련된 데이터들을 모두 섭렵하는 것은 분석에서 가장 중요한 부분이며 다음 단계의 모형화(변수 선정)를 위해서 필수적이다.

 

요즈음 관련 데이터를 찾는 가장 쉬운 방법은 네이버, 다음, 구글과 같은 검색엔진을 활용하는 것이다. 또한 관련 서적도 검색할 수 있는데, 특히 인터넷 서점을 활용하여 관련되는 서적이나 데이터를 검색하면 크게 도움이 된다. 다양한 데이터와 연구 문헌 등의 검색 외에 전문가들과 해결해야 할 문제에 관해 상담하는 것이 필요하다 여기에서 전문가들이란 해당 문제에 대한 오랜 경험과 지식을 축적하여 문제의 해결 대안이나 아이디어를 줄수 있는 사람을 의미한다. 이상의 문제와 관련된 연구 조사과정을 거쳐 수집된 데이터의 내용들은 다 읽고 정리하면 과련 변수들을 파악 할수 있게 된다.

 

1.3 모형화와 변수 선정

우리가 인식한 문제들은 대부분 복잡하므로 단순화해야 해결 대안을 찾기가 쉽다. 즉 많은 변수가 포함된 문제를 그 특성을 잘 대표하는 결정적인 요소(번수)만을 추려서 그것으로 표현하면 분석이 좀 더 쉬워지는 것이다. 모형화란 복잡한 현상을 문제의 본질과 관련되는 적은 수의 변수만을 추려서 단순화하는 과정을 말한다. 여기에서 모형은 문제(연구 대상)를 의도적으로 단순화한 변수들 간의 관계이다. 또한 변수란 수로 표현 가능한 측정치들을 통칭한다. 예를 들어 성별, 소득, 몸무게, 선호하는 정도, 좋아하는 음식 등이 수치로 표현가능하고 측정 가능하면 변수라 할 수 있다.

 

삽화나 캐리커쳐가 의도적으로 인물의 중요한 특징(머리, 눈, 코, 입 등)을 강조하고 나머지는 무시하는 것과 같이 모형화도 문제와 관려된 주요 변수만을 선택하고 불필요한 것들은 버린다. 만약 지도를 그린다면 거리와 방향이 중요하겠지만, 지하철 노선표는 각 역과 노선별 연결이 더 중요하다. 어떤 변수를 버리고 어떤 변수를 택할 것인가는 그 변수가 문제 해결과 얼마나 직접적으로 관련이 있는가에 달려 있다. 예를 들어, 어느 쇼핑몰이 회원들에게 전자쿠폰북을 발송하는데 반응률이 낮아 쿠폰 선호대상을 찾아 ㅜ폰을 발송하고자 한다고 하자. 이때에는 수많은 회원 데이터 중에서 총구매금액에 영향을 미치는 요이들을 고려해야 하므로 평균 구매금액, 사이트 체류시간, 구매상품의 다양성 등을 분석 대상 변수로 단순화하면 분석이 한층 쉬워진다

 

1.4 데이터 수집과 변수 측정

선정된 변수에 의해 분석 모형이 구성되면 데이터 수집과정, 즉 변수 측정과정을 거치게 된다. 데이터를 수집하는 방법은 통상 2차 데이터 혹은 1차 데이터를 얻는 방법 두 가지에 의해 이루어진다.

먼저 2차 데이터는 다른 목적을 위해 이미 수집, 정리되어 있는 데이터로, 데이터 원천은 매우 다양하다. 예를 들어 기업의 내부 데이터, 통계청 등의 정부 간행물과 통계 데이터, 상업용 데이터, 학술 논문과 문헌 등이 2차 데이터라 할 수 있다. 많은 경우 2차 데이터를 구하면 쉽게 분석을 할 수 있지만, 2차 데이터를 통해서 자신이 선정한 변수의 측정치를 구할 수 없는 경우가 많다. 이럴 경우 1차 데이터를 구해야 하는데, 1차 데이터란 조사가가 설문조사, 관찰, 실험 등을 통하여 직접 데이터를 수집한 경우의 데이터를 말한다. 데이터 수집을 위한 두 가지 방법 중 어떤 방법을 선택하여 구체적으로 어떻게 측정할 것인가는 해결해야 하는 문제의 성격과 측정해야 하는 변수의 특징에 달려있다.

 

1.5 데이터 분석과 정리

분석 대상과 관련되는 변수의 데이터가 수집되면 이를 분석해야 한다. 측정하고 수집된 데이터 그 자체만으로는 아무것도 알 수가 없으므로 분석을 통해 그 속에 내재된 의미를 파악하는 것은 매우 중요한 일이다. 즉 데이터 분석이란 모아놓은 데이터에서 변수들 간의 관련성을 파악하는 것이다. 예를 들어, 유권자들의 출신지역, 연령, 학력, 소득수준 등에 따라 특정 후보에게 어떠한 투표행태를 보이는지를 파악하는 것은 유권자의 투표 성향 분석이라는 데이터 분석이라 할 수 있다.

 

1.6 결과 제시

분석의 마지막 단계는 분석 결과의 의미를 제시하는 단계로, 이 단계가 잘되지 않으면 그동안의 과정이 물거품이 되고 만다. 즉 데이터 분석을 통해 변수 간의 관련성이 분석되면 그 결과가 의미하는 바를 명료하게 해석하여 의사결정자에게 구체적인 주언을 하는 것이 매우 중요하다. 특히 주요 분석 결과를 간단명료하게 요약하여 어떤 의사결정이 바람직하다고 적절한 방법을 통해 제시하는 것이 필요할 것이다.

결과 제시에는 연구 과정의 개요, 결과 요약, 문제의 해결을 위한 권고 등이 포함되어야 한다. 중요한 의사결정 사안인 경우에는 관계자들이 모인 자리에서 발표와 토론을 하거나 공식적인 보고서를 작성할 수도 있고 학술적인 의의가 있는 연구라면 논문으로 발표할 수도 있다.

결과의 제시 방법 중 표의 형태로 데이터를 제시하는 것은 주의를 끌지 못하게 하는 좋지 않은 방법으로 애기되고 있다. 많은 경우 다양한 차트나 그래프를 활용하여 효과적으로 주의를 끄는 방법이 권고되고 있다. 특히 호소력을 갖는 방법으로 데이터를 기업의 문제나 목표와 직접적으로 연관된 스토리로 만들어내어 전달하는 방법이 활용되고 있다. 이때에는 청중들이 이해할 수 있는 용어로 분석 결과를 제시하는 것이 권장되고 있는데, 기업의 경우 종종 수익, 비용 절감, 투자 회수율 등의 용어가 전달력을 갖는 것으로 이해되고 있다.

 

 

저는 빅데이터를 공부하여, 1.5에서 언급된 "모아놓은 데이터에서 변수들 간의 관련성을 파악"을 하여 의사결정하는데 도움을 얻는 것을 목표로 하고 있습니다.

 

파이팅!

728x90