728x90

프로그램 2

빅데이터 분석 대표 프로그램 (하둡 & R)

안녕하세요. 아프락사쓰입니다. 빅데이터 분석할 때 대표적으로 사용되는 하둡 과 R프로그램에 대해 알아 보도록 하겠습니다. (다음 내용들은 위키백과에서 발췌했습니다.) 1. 아파치 하둡 (Apache HaDoop, High-Availability Distributed Object-Oriented Platform) 아파치 하둡은 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레임워크이다. 원래 너치의 분산 처리를 지원하기 위해 개발된 것으로, 아파치 루씬의 하부 프로젝트이다. 분산처리 시스템인 구글 파일 시스템을 대체할 수 있는 하둡 분산 파일 시스템(HDFS : Hadoop Distributed File System)과 맵리듀스를 구..

빅데이터의 데이터마이닝이란??

안녕하세요. 아프락사쓰입니다. 이번 포스팅에서는 데이터마이닝에 대해 알아 보도록 하겠습니다. 1. 데이터마이닝 개념 데이터마이닝은 대용량의 데이터로부터 자동 또는 반자동적인 방법을 통하여 의미 있는 패턴, 규칙, 관계를 찾아내는 것이다. 데이터마이닝은 또한 많은 데이터베이스로부터 지금까지 잘 알려지지 않고 유용하며 활용이 가능한 정보를 추출하는 과정으로 정의가 되기도 한다. 기업이나 정부는 일반적인 업무 활동을 통해 대용량의 데이터를 축적해 왔다. 그러나 빈번하게 발생되는 많은 양의 데이터들은 수치화가 되지 않았을 뿐만 아니라, 수리적 형태보다는 질적인 형태로 저장이 되어 일반적인 통계 방법에 의해 잘 분석과 활용이 될 수 없었다. 이로 인해 그동안 데이터베이스에 포함되어 있는 많은 정보들이 제대로 활용..

반응형