[여러가지 시도]/빅데이터

빅데이터 분석도구에는 무엇이 있을까??

시간 확보러 2017. 12. 26. 13:55
728x90

안녕하세요. 아프락사쓰입니다.

 

이번 포스팅에서는 빅데이터 분석도구에 대해 알아 보도록 하겠습니다.

 

 

1. 빅데이터 분석도구 개요

 

현대는 수많은 데이터들의 사회이다. 매년 홍수처럼 불어나는 정보들 때문에 그 상당한 양을 다루는 기술의 필요성이 대두되고 있다. 빅데이터의 특징 중 하나인 가치를 창출해 내기 위해서는 대용량 데이터와 다양한 데이터를 핸들링하고 이를 분석 할 수 있는 통계적 방법이 필요하고, 이러한 통계적 방법을 뒷받침 할 수 있는 통계 분석 툴이 필수적으로 요구된다. 기초적인 분석 도구로는 엑셀이 있고, 중급 통계 분석용으로는 SPSS, 전문가들이 주로 사용하는 SAS 등이 일반적으로 널리 사용되고 있다.

 

2.1 엑셀의 개요

엑셀은 마이크로소프트사에서 개발한 윈도 환경의 스프레드시트 프로그램으로, 사용자의 그래픽 환경을 제공하는데 스프레드 시트 기능을 비롯해 매크로, 그래픽, 데이터베이스 기능과 차트 작성 등 문서 작성에 필요한 기능을 제공한다. 마이크로소프트사는 1985년에 엑셀 초기 버전을 개발 한뒤 꾸준한 개발을 통해 현재 엑셀 2013 최신 버전을 제공하고 있다. 수식 작성과 함수 생성 및 계산이 편리하여 전 세계적으로 많은 사용자들이 사용 중인 프로그램이다.

 

2.2 엑셀의 데이터 입력과 분석

엑셀의 장점은 다른 분석툴에 비해 사용이 비교적 쉽다는 것이다. 다른 분석툴이 데이터를 입력하기 위해 다양한 명령어를 사용해야하는 것과 달리 엑셀은 데이터 입력을 하기위해 복잡한 명령어 없이 사용자가 직접 해당 셀에 원하는 데이터를 입력 할 수 있고, 기존에 존재하는 데이터를 불러와 수정, 사용하는 방법이 있어 사용자의 상황에 따라 선택적 사용이 가능하다. 뿐만 아니라 데이터  핸들링이 어렵고 명령어를 직접 암기하여 입력해야하는 다른 분석툴과 달리 엑셀은 '데이터' 리본메뉴에서 제공되는 다양한 방법을 마우스 클릭을 통해 사용 할 수 있다. 단순 평균비교부터 회귀분석과 시계열 분석과 같은 고급 통계 분석 또한 데이터>분석>데이터분석 클릭을 통해 손쉽게 이루어진다.

 

 

3.1 SPSS의 개요

SPSS는 Statistical Package for Social Science의 약자로 사회과학의 자료 분석을 위해서 고안된 프로그램으로 광범위한 데이터의 핸들링이 가능하고 다양한 통계분석이 가능하여 널리 사용되고 있는 통계분석 전용 프로그램이다. SPSS는 1969년 사회과학 분야의 데이터 분석을 위해 시카고 대학의 전미여론조사센터에서 컴퓨터 프로그램의 모음집으로 출발하게 되었으며 2009년에 IBM사에 인수되면서 정식 명칭이 IBM SPSS Statistics으로 변하였고, 2013년 기준으로 IBM SPSS Statistics 22 버전이 가장 최신 버전으로 판매되고 있다.

SPSS는 비즈니스 사용자나 분석가 또는 통계 프로그래머에게 적합한 프로그램으로 만들어졌지만, 마이크로소프트사의 엑셀과 유사하게 생겼고, 사용이 간편하여 비전문가도 단기간에 사용법을 습득할 수 있다는 장점이 있다. 특히 사용자의 니즈에 맞춰 사용자가 속한 기관에 따라 교육기관용, 의학연구기관용, 공공기관용, 병원용 그리고 일반기관용 등으로 분류된 프로그램을 제공한다. 뿐만 아니라 기본 패키지인 Standard, Standard 기능과 더불어 예측분석과 관련된 고급 통계분석을 제공하는 Professional 그리고 SPSS에서 가능한 모든 분석을 지원하고 Amos가 포함된 패키지인 Premium과 같이 3가지 제품으로 나뉘어 제공되어 사용자의 편의를 도모한다.

 

3.2 SPSS의 데이터입력과 분석

SPSS의 사용법은 엑셀과 유사하다. SPSS도 원하는 데이터를 원하는 셀에 직접 입력하는 스프레드시트 형식 입력법과 컴퓨터에 저장되어있는 기존 데이터를 불러와 사용하는 방법 모두 사용 가능하다. 스프레드시트 형식 입력법은 엑셀과 마찬가지로 각 열에는 서로 다른 변수를, 각 행에는 서로 다른 케이스를 입력하여 사용하는 방법이다. 데이터 불러오기 방식은 데이터 사이즈가 매우 커 직접 입력하는 것이 불가능 하거나, 이미 분석하고자 하는 데이터가 SPSS에서 분석 가능한 형태로 존재 할 때, '불러오기'기능을 통해 데이터를 입력하게 된다. SPSS의 경우 SPSS 데이터 파일인 .sav 형식뿐만 아니라 엑셀, SAS 등 다른 통계 분석툴에서 입력된 데이터 또는 텍스는 파일등을 불러와 사용 할 수 있고, 반대로 SAS나 엑셀 프로그램으로 SPSS에서 입력 및 편집된 데이터를 내보낼 수 있다.

SPSS를 사용해 빅데이터를 분석하기 위해서는 사용자가 갖고 있는 데이터 변수의 측도를 지정해줘야 한다. SPSS에서 설정 할 수 있는 변수의 측도는 척도형, 순서형, 명목형 3가지이며, 데이터 입력 창 하단의 변수보기창에 들어가 해당 데이터의 성격에 알맞게 측도를 설정해주면 된다.

SPSS는 데이터 획득에서부터 리포팅까지 전 과정을 메뉴와 대화 상자를 통해 수행가능하기 때문에 복잡한 명령어가 필요 없다는 장점이 있다. SPSS에서 수행되는 대부분의 분석들은 분석비교, 일반선형모델, 회귀분석, 상관분석, 분류분석, 비모수 검정 등 대부분의 통계 분석 기법들을 수행 할 수 있다.

 

 

4.1 SAS의 개요

SAS는 Statistical Analysis System의 약자로 1966년에 노스캐롤라이나주립 대학에서 고안해낸 프로그램으로 현재는 SAS라는 회사가 설립되어 프로그램을 판매중이고, 현재 SAS 9.3 버전까지 출시되었다. SAS는 상당히 고가인 제품으로 라이센스 없이는 사용이 불가능하고, 일정 기간이 지난 후에는 라이센스 갱신이 필요하다. 하지만 고가로 제공된 프로그램인 만큼 현재 공인되어 있는 거의 모든 통계분석을 포괄하여 수행 할 수 있고 가능하고 매우 정밀한 결과를 제공한다는 장점이 있다. 뿐만 아니라 보고서 작성과 그래픽도 가능하여 통계를 전문적으로 사용하는 전문가의 경우 SAS 사용을 선호한다.

SAS의 사용은 크게 두 가지 단계를 거쳐 이루어진다. 데이터 입력 및 편집을 위한 DATA STEP과 본격적인 데이터 부석이 이루어지는 PROC STEP이다. DATA STEP에서는 데이터의 입력, 데이터의 오류 판단 및 수정, 데이터의 샘플링 및 병합 등이 가능하다. PROC STEP에서는 DATA STEP에서 가져온 데이터를 출력, 정렬, 요약 할 수 있고, 더 나아가 여러 분석 기법을 이요해 통계 분석을 수행 할 수 있다.

SAS의 화면 구성은 확장편집기, 출력윈도우, 로그윈도우, 탐색기와 결과창으로 나뉜다. 확장편집기는 사용자가 DATA STEP과 PROC STEP과 같은 프로그램 명령문을 직접 입력하는 공간이다. 출력윈도우는 사용자가 확장편집기에서 입력한 명령어들에 대한 결과값이 출력되는 공간이다.로그윈도우는 SAS 실행 과정에 있어 여러 가지 정보를 제공하는 창이다. 만약 확장편집기에서 입력된 프로그램 명령문이 올바르게 입력되었다면 로그윈도우에 제대로 수행되었다는 구문이 나타나고, 만약 프로그램 명령문에 오류가 있다면 어늘 부분에서 오류가 있는지 알려준다. 마지막으로 탐색기와 결과창에는 라이브러리와 결과물들이 아이콘 또는 목록형으로 나타낸다.

 

4.2 SAS의 데이터 입력과 분석

SAS에서의 데이터 입력은 DATA STEP과 PROC STEP 모두 가능하다. DATA STEP에서는 input, cards문을 통해 직접 입력 할 수 있고, PROC STEP에서는 proc import, infile 등의 명령문을 통해 가능하다. infile의 경우 csv, xlsx등 다양한 형식의 파일을 불러 올 수 있어 자주 이용된다.

 

728x90