728x90

[여러가지 시도] 51

빅데이터 분석 대표 프로그램 (하둡 & R)

안녕하세요. 아프락사쓰입니다. 빅데이터 분석할 때 대표적으로 사용되는 하둡 과 R프로그램에 대해 알아 보도록 하겠습니다. (다음 내용들은 위키백과에서 발췌했습니다.) 1. 아파치 하둡 (Apache HaDoop, High-Availability Distributed Object-Oriented Platform) 아파치 하둡은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템(HDFS : Hadoop Distributed File System)과 맵리듀스를 구..

비전공자가 바라 본 빅데이터

안녕하세요. 아프락사쓰입니다. 뉴스, 인터넷 등 실생활에서 "빅데이터"라는 단어를 많이 접할 수 있었을 것입니다. 또한 많은 기업들도 빅데이터 관련 분야에 투자도 많이하고 있습니다. 비전공자인 제가 바라 본 빅데이터는 기업 측면에서는 데이터 홍수에서 소비자들의 행동 및 선택을 파악함으로써, 성향 등을 확인하여 의사결정 등에 활용하는 것이라고 생각 되어집니다. 점점 개인화되고 언택트기술이 발전함에 따라, 소비자들은 만남 자체를 꺼려하는 경향이 증가하고 있습니다. 이때, 기업에서 소비자의 성향을 파악하여 추천 등을 하는 것은 소비자 입장에서도 좋고, 기업입장에서도 판매량이 증가하기에 좋을 것이라고 생각되어 집니다. 이런 이유로, 빅데이터 분석은 미래 사회에 가장 중요할 것이라고 생각되어 졌습니다. 그래서 "..

빅데이터 분석도구에는 무엇이 있을까??

안녕하세요. 아프락사쓰입니다. 이번 포스팅에서는 빅데이터 분석도구에 대해 알아 보도록 하겠습니다. 1. 빅데이터 분석도구 개요 현대는 수많은 데이터들의 사회이다. 매년 홍수처럼 불어나는 정보들 때문에 그 상당한 양을 다루는 기술의 필요성이 대두되고 있다. 빅데이터의 특징 중 하나인 가치를 창출해 내기 위해서는 대용량 데이터와 다양한 데이터를 핸들링하고 이를 분석 할 수 있는 통계적 방법이 필요하고, 이러한 통계적 방법을 뒷받침 할 수 있는 통계 분석 툴이 필수적으로 요구된다. 기초적인 분석 도구로는 엑셀이 있고, 중급 통계 분석용으로는 SPSS, 전문가들이 주로 사용하는 SAS 등이 일반적으로 널리 사용되고 있다. 2.1 엑셀의 개요 엑셀은 마이크로소프트사에서 개발한 윈도 환경의 스프레드시트 프로그램으로..

빅데이터 시각화란??

안녕하세요. 아프락사쓰입니다. 의사결정에 빅데이터가 사용되기 위해서는, 보는 모든 이가 이해하기 쉽게 만들어져야 합니다. 그 중 가장 효과적인 방법이 시각화입니다. 이번 포스팅에서는 데이터 시각화에 대해 자세히 알아보도록 하겠습니다. 1. 데이터 시각화의 개념 빅데이터는 데이터의 풍부함을 드러내기 위한 새로운 방식으로 방대한 양의 데이터를 탐색하거나 이해할 때 가장 좋은 방법으로 시각화를 활용한다. 우리가 시각화에 관심을 갖는 이유는 인간의 시각체계가 거대한 힘과 미묘함을 가지고 있기 때문이다. 여기서 정보를 보는 것과 이해하는 것이 같다고 말하는 선행연구자들은 어려운 정보를 이해하는 과정과 인식의 과정이 많은 관련이 있다고 본다. 러셀의 연구에 따르면, 인간 사고의 내용을 서술하는 체계는 자료, 정보,..

빅데이터의 비정형 데이터마이닝이란??

안녕하세요. 아프락사쓰입니다. 소셜 미디어에서 얻는 데이터는 대부분이 비정형 데이터마이닝이기에, 언급되고 있는 빅데이터 분석은 주로 비정형 데이터를 분석해야 합니다. 이번 포스팅에서는 비정형 데이터의 정의 등에 대해 알아보도록 하겠습니다. 1. 비정형 데이터 비정형 데이터란 글자 그대로 정형화 되지 않은 데이터로서, 구체적으로 미리 정의된 데이터 모델을 가지고 있지 않은 데이터를 말한다. 대표적인 비정형 데이터의 예로는 아주 많은 양의 데이터를 가지고 있으면서 구조와 형태가 다르고 정형화 되지 않는 문서, 영상, 음석 등을 들 수 있다. 문서의 경우만 살펴봐도 텍스트가 대부분이나 그 속에는 다른 그림이나 표 등이 들어 있어서 구분하기 힘들게 하는 불규칙성이 있는 의미를 파악하기 애매하기 때문에 기존의 일..

빅데이터의 데이터마이닝이란??

안녕하세요. 아프락사쓰입니다. 이번 포스팅에서는 데이터마이닝에 대해 알아 보도록 하겠습니다. 1. 데이터마이닝 개념 데이터마이닝은 대용량의 데이터로부터 자동 또는 반자동적인 방법을 통하여 의미 있는 패턴, 규칙, 관계를 찾아내는 것이다. 데이터마이닝은 또한 많은 데이터베이스로부터 지금까지 잘 알려지지 않고 유용하며 활용이 가능한 정보를 추출하는 과정으로 정의가 되기도 한다. 기업이나 정부는 일반적인 업무 활동을 통해 대용량의 데이터를 축적해 왔다. 그러나 빈번하게 발생되는 많은 양의 데이터들은 수치화가 되지 않았을 뿐만 아니라, 수리적 형태보다는 질적인 형태로 저장이 되어 일반적인 통계 방법에 의해 잘 분석과 활용이 될 수 없었다. 이로 인해 그동안 데이터베이스에 포함되어 있는 많은 정보들이 제대로 활용..

빅데이터의 핵심과목 통계!!

안녕하세요. 아프락사쓰입니다. 빅데이터를 이해하기 위해서는 최소한 기초적인 통계지식이 있어야 합니다. 이번 포스팅에서는 통계의 이해/기술통계/추측통계에 대해 알아 보도록 하겠습니다. 1. 통계의 이해 정보화 시대에 살고 있는 우리는 예전과는 비교할 수 없을 정도로 수많은 정보를 맹리 접하면서 살고 있다. 정보화 시대에 있어서 정보의 중요성이 강조되고 있으나 정보의 홍수 속에서 양질의 정보를 얻는 것은 갈수록 더 어려워지고 있다. 또한 더욱 복잡하고 다양한 사회구조는 미래에 대한 불확실성의 증가로 이어져 주어진 상황에서 적절한 의사결정을 하는 것 또한 어렵게 되었다. 이러한 상황 하에서 타당하고 신뢰성 있는 의사결정을 위해서는 과학적인 미래 예측이 필요하다. 과학적인 미래 예측은 주어진 자료에 의해서 이루..

빅데이터 분석의 첫단계!! (기획이란??)

안녕하세요. 아프락사쓰입니다. 빅데이터 분석은 상상을 초월하는 데이터 정보 속에서 필요한 자료를 추출하여 의사결정에 도움을 주는 도구입니다. 이런 데이터 정보 속에서, 무엇을 할지? 또는 왜 하는지?가 없다면 원하는 자료를 얻는데 어려움을 겪을 것입니다. 이번 포스팅에서는 빅데이터 분석의 첫단계인 기획에 대해 알아보도록 하겠습니다 기획이란 무엇을, 왜 해야 하는지를 명확히 하는 것이다. 비슷한 개념으로 계획이 있다. [기획력]의 저자 다코 가가야쿠는 일반적인 경영활동에서 '계획이란 주어진 문제와 관련된 다수의 요소를 논리적으로 사고하여, 불확실한 요소를 미리 예측해서 과학적인 해결책을 세우는 것'이라고 정의하고 있다. 이러한 틀 속에서는 기획과 계획 사이에 공통된 부분이 있기는 하지만 다코 가가야쿠는 양..

빅데이터 분석을 위한 원천데이터를 얻을 수 있는 곳!!

안녕하세요. 아프락사쓰입니다. 빅데이터를 분석하기 위해서는 데이터가 필요한데, 저와 같은 일반인 특히 비전공자는 데이터를 어디서 얻을지 막막합니다. 이런 분들을 위하여, 공공데이터 및 지원을 받을 수 있는 정보를 공유하도록 하겠습니다. 1. 공공정보 활용 지원센터 최근 정부에서는 범정부차원에서 국가가 보유한 공공정보를 대외 개방하기 위한 노력의 일환으로 공공정보 개방 협의체를 발족하려는 움직임이 있다. 행정안전부를 비롯한 국토해양부, 기상청, 경찰청, 농촌진흥청, 특허청, 통계청, 법제처, 서울시, 경기도 등 민간 수요가 높은 공공정보 보유 기관들이 12년 6월 25일 '공공정보 개방 협의체'에 참여했으며 이들은 선언문을 통해 '스마트 시대를 맞아 국민생활의 편의를 증진하고 국가 경제의 새 성상 기회를 ..

교통 분야에서 빅데이터 활용은??

안녕하세요. 아프락사쓰입니다. 이번 포스팅은 빅데이터가 교통분야에서 어떻게 활용 되는지 알아 보도록 하겠습니다. 1. 서울시 심야버스 노선 최적화 빅데이터 사례 서울시는 2013년 안정행정부가 개최한 정부 3.0 구현을 위한 각 시, 도의 정책연구 과제 바표에서 민간 이동통신사의 30억 개 통화량 분석하여 심야버스 정책에 반영한 사례로 "민, 관 융합 빅데이터를 활용한 시정 수립방안 연구"과제로 대통령상을 수상했다. 서울시가 발표한 과제는 서울시 심야버스 추진사례를 근거로 민, 관 융합 빅데이터 활용 필요성, 노선 최적지 수립과정을 발표하여 빅데이터를 활용한 도시문제 해결 방안의 가능성을 제시했다는 점에서 참여한 타 시도로부터 큰 호응과 관심을 받았으며, 민, 관의 데이터 개방과 활용을 통해 시민들이 새..

반응형