[여러가지 시도]/빅데이터

빅데이터의 핵심과목 통계!!

시간 확보러 2017. 12. 25. 09:56
728x90

안녕하세요. 아프락사쓰입니다.

 

빅데이터를 이해하기 위해서는 최소한 기초적인 통계지식이 있어야 합니다.

이번 포스팅에서는 통계의 이해/기술통계/추측통계에 대해 알아 보도록 하겠습니다.

 

 

1. 통계의 이해

 

정보화 시대에 살고 있는 우리는 예전과는 비교할 수 없을 정도로 수많은 정보를 맹리 접하면서 살고 있다. 정보화 시대에 있어서 정보의 중요성이 강조되고 있으나 정보의 홍수 속에서 양질의 정보를 얻는 것은 갈수록 더 어려워지고 있다. 또한 더욱 복잡하고 다양한 사회구조는 미래에 대한 불확실성의 증가로 이어져 주어진 상황에서 적절한 의사결정을 하는 것 또한 어렵게 되었다. 이러한 상황 하에서 타당하고 신뢰성 있는 의사결정을 위해서는 과학적인 미래 예측이 필요하다. 과학적인 미래 예측은 주어진 자료에 의해서 이루어지는데 이러한 자료의 분석과 해석은 일반적으로 통계적 법칙에 의해 이루어진다. 통계학은 관심의 대상이 되는 전체집단으로부터 자료를 최적의 방법으로 수집하고, 수집한 자료를 과학적이고 논리적인 이론에 의하여 정리 분석하여 최적의 의사결정을 할 수 있도록 정확한 정보를 제공하는 방법론을 연구하는 학문으로 정의된다. 즉, 우리가 일상생활 혹은 기업의 경영활동에서 발생하는 다양한 자료를 효과적으로 측정하여 요약하거나 분석함으로써, 의사결정에 도움이 되는 의미 있는 형태인 정보로 전화시키는 방법을 연구하는 학문을 말한다. 통계학은 크게 기술통계학과 추측통계학으로 분류된다. 수집된 자료를 정리, 요약하여 그 집단의 트성을 알기 쉽게 정보화하는 방법을 다루는 통계분야를 기술통계학이라 하며, 모집단의 일부인 표본의 특성을 이용하여 모집단의 특성을 추정하거나 가설을 검정하는 방법을 다루는 통계분야를 추측통계학이라 한다. 여기서 모집단이란 괸심의 대상이 되는 집단 전체를 의미하고, 모집단의 특성을 모수, 표본의 특성을 통계량이라 한다. 통계적 추론은 모집단에서 추출된 표본의 통계량으로부터 모수를 추정하고 예측하는 과정이다.

 

 

2. 기술통계

 

기술통계는 자료의 특성을 표나 그래프 또는 수치로 정리 요약하여 기술함으로써 자료의 일반적인 특성을 알기 쉽게 나타내는데 이용되는 통계로써 다음과 같이 자료의 정리에 의해서 이루어진다.

 

1) 자료의 종류

통계학에서 이용되는 자료는 관심의 대상이 되는 사물이나 사건의 속성을 일정한 규칙에 따라 관찰 또는 측정한 값들이다. 이러한 자료는 성별, 직업, 혈액형과 같이 관측된 값이 숫자가 아닌 문자로 표시되어 몇 개의 범주를 나타내는 질적자료와 키, 몸무게, 생산량 등과 같이 관측된 값이 숫자로 표시되는 양적자료로 분류된다. 양적자료는 다시 이산형 자료와 연속형 자료로 분류된다. 이산형 자료는 고객 수, 차량 수 등과 같이 자료가 유한개 또는 셀수 있는 것을 의미하고 연속형 자료는 길이, 무게, 온도 등과 같이 모든 가능한 측정값을 세는 것이 불가능한 자료를 의미한다. 일반적으로 차량 판매대수와 같이 정수값을 갖는 자료를 이산형 자료라 하고 몸무게와 같이 관측결과가 실수로 표현되는 자료를 연속형 자료라고 한다. 관심의 대상이 되는 사물이나 사건의 속성을 변수라고 하는데 변수는 서로 다른 2개 이상의 값을 갖는다. 변수 역시 지적변수와 양적변수로 구분되어진다.

명목척도는 측정대상이 어느 집단에 속하는지 분류하는 경우에 사용되는 척도이고, 서열척도는 측정대상이 특성의 서열관계를 관측하는 척도로 선택사항이 일정한 순서로 되어있다 다음으로 등간척도는 측정대상이 갖고 있는 속성의 양을 측정하는 것으로 측정결과가 숫자로 표현되며, 비율척도는 구간척도가 갖는 특성에 더하여 절대적인 영점이 존재하고 두 측정값의 비율이 의미가 있는 척도이다.

 

2) 표와 그래프에 의한 자료의 정리

보통 자료가 많고 복잡할 때 표와 그래프에 의해 정리하여 나타내면 자료의 특성을 쉽게 파악하고 전달 할 수 있다. 변수에 따라 자료를 정리하는 방법으로 질적변수의 분포를 파악하기 위해서는 도수분포표, 원그래프, 막대그래프 등이 사용되고 양적변수를 위해서는 도수분포표, 점도표, 줄기-잎 그림, 히스토그램, 상자그림 등이 사용된다. 두 범주변수의 관계를 나타내기 위해서는 삼점도, 분할표 등이 사용된다.

 

3) 수치를 이용한 자료의 정리

자료의 분포를 수치를 이요하여 나타낼 수 있는 특성값은 보통 다음과 중심위치, 산포도, 분포형태에 의한 것으로 나누어진다.

 

4) 자료의 수집

분석하고자 하는 관심의 대상이 되는 모집단 전체를 조사, 분석하는 것은 시간이나 비용 측면에서 타당한 방법이 아니다. 따라서 선거 당선율 예측, 마케팅 조사 등을 위한 설문조사나 실험관찰 등을 수행 할 때 표본을 추출하여 실시하는 것이 일반적이다. 표본을 추출하는 방법은 비확률 표본추출법과 확률 표본추출법으로 분류된다. 비확률 표본추출법은 각 추출 단위가 표본에 추출된 확률을 객관적으로 알 수 없는 추출법으로 할당추출, 편의추출, 판단추출 등이 있다. 확률 추출법에는 일반적으로 단순무작위추출, 계통추출, 층화추출, 집단추출 등이 사용되고 있다.

 

 

3. 추측통계

 

일반적으로 모집단에 대한 전수조사는 시간과 비용 등의 문제로 인하여 실시하지 않고 모집단을 대표하는 표본을 추출하여 표본의 특성으로부터 모집단의 특성을 예측한다. 추측통계는 표본의 특성인 통계량으로부터 모집단의 특성인 모수를 추론하는 과정으로 모수의 추론은 추정과 가설검정 과정에 의해 수행된다.

 

1) 추정

모평균, 모분산 등과 같은 모수를 추정하는데 사용하는 표본평균, 표본분산 등과 같은 통계량을 추정량이라 하고 추정량의 구체적인 값을 추정값이라고 한다. 표본평균, 표본의 중앙값, 최빈값 등은 모평균의 추정량이다. 이렇듯 한 모수의 추정량은 여러 개가 있을 수 있다. 따라서 모수를 추정하기 위해서는 불편성, 일치성, 상대적 효율성, 충분성 등과 같은 바람직한 특성을 가진 추정량을 사용하여야 한다.

추정은 점추정과 구간추정으로 나뉘는데 모수를 하나의 값을 사용하여 추정하는 것을 점추정이라 하고 구간을 사용하여 추정하는 것을 구간추정이라 한다. 점추정은 미지의 모수 추정이 하나의 특정한 값으로 이루어지므로 오차가 있을 수밖에 없고, 또한 오차가 얼마나 되는지 알 수도 없다. 그리고 점추정량은 표본의 정보를 반영하지도 못하기 때문에 신뢰성에 문제가 있다. 따라서 모수를 추정하기 위해서 일정 구간의 값을 이용하는 구간추정이 사용된다.

 

2) 가설검정

가설검정은 모집단의 모수에 대한 가설을 설정하고 표본으로부터 조사한 결과에 따라 그 가설을 선택할 것인지를 통계적으로 결정하는 분석방법이다. 가설에는 귀무가설과 대립가설이 있다. 귀무가설은 기존에 알려져 있는 사실이 옳다고 주장하는 것으로 표시하고, 대립가설은 연구자의 새로운 제안이 옳다고 주장하는 것으로 표시한다.

통계적  가설검정은 항상 귀무가설이 옳다는 전제하에서 출발한다. 따라서 대립가설을 채택하기 위해서 귀무가설을 기각할 확실한 근거가 있어야 한다. 통계적 검증에서는 귀무가설이 옳다는 전제하에서 출발하기 때문에 표본들의 평균치 간에 생기는 차이는 우연에 의한 것이라고 보지만 차이가 너무 큰 경우에는 이것을 우연으로 보아야 할 것인지 의문이 생긴다. 그렇다면 어느 정도의 차이가 유의한 것으로 볼 수 있을까? 이때 구한 값의 차이가 실제로 의미가 있는지 없는지를 파단하는데 필요한 기준을 유의수준이라 한다. 유의주준은 귀무가실이 참인데도 기각하는 오류를 범할 확률로 보통 α로 표시한다. 가설검정에서는 제1종 오류와 제 2종 오류가 있다. 제 1종오류는 귀무가설이 사실인데도 이를 기각할 확률을 나타내며 제2종 오류는 귀무가설이 거짓인데로 이를 채택할 확률을 나타낸다.

제 1종 오류의 확률인 α는 보통 5%를 사용하나 엄격한 경우에는 1%를 사용하기도 한다. 검정통계량은 가설검정에 이용되는 통계량으로 분포는 항상 가설에서 주어지는 모수를 갖는 분포를 따른다. 기각역이란 귀무가설이 사실이라는 전제하에서 구한 검정통계량의 분포에서 확률이 α인 부분을 말한다.

 

 

고등학교에서 배운내용이지만, 약 10년이 지나니 많은 내용들이 새로웠다.

이번 기회에 다시한번 통계를 공부를 하는 것도 나쁘지 않는 것 같다.

728x90