[여러가지 시도]/빅데이터

R 프로그래밍 공부 정리 (변수/함수호출시인자지정/스칼라/벡터)

시간 확보러 2018. 1. 2. 11:49
728x90

안녕하세요. 아프락사쓰입니다.

 

비전공자로써, 빅데이터 분석 분야에 도전하고 있는 청년입니다.

어제 R 프로그래밍을 개인 노트북에 설치하고, 금일부터 R 프로그래밍 공부를 시작하였습니다.

첫 시간에는 기초중에 기초인 변수/함수 호출 시 인자 지정/스칼라/벡터를 공부하였습니다.

 

포스팅은 개인적으로 중요하거나 헷갈리는 부분을 중심으로 작성 할 예정이오니, 빅데이터 공부하시는 분들에게 도움이 되었으면 합니다.

(공부하고 있는 교재는 ["R을 이용한 데이터 처리 & 분석 실무" 서민구 지음] 입니다.)

 

 

1. 변수 이름 규칙

R의 변수명은 알파벳, 숫자, _(언더스코어), .(마침표)로 ㅜ성되며, -(하이픈)은 사용할 수 없다.

첫 글자는 알파벳 또는 .으로 시작해야 한다. 만약 .으로 시작한다면 .뒤에는 숫자가 올 수 없다.

 

2. <- 와 =의 차이

할당 연산자 중 =는 명령의 최상위 수준에서만 사용할 수 있는 반면 <-는 어느 곳에서나 사용할 수 있다. 따라서 호출과 동시에 변수에 값을 할당하는 목적으로는 <-만 사용할 수 있다. =는 때에 따라 사용할 수 없기 떄문에, <-를 주로 많이 사용한다.

 

3. NULL과 NA의 차이

NA는 결측치, 즉 값이 빠져 있는 경우를 뜻한다. 결측치가 존재하는 이유로는 데이터 입려 중 싨로 값을 입력하지 않은 경우, 값을 어떤 이유로든 관찰되지 못한 경우(예를 들어, 인구 조사에서 특정 가구가 소득을 기재하지 않은 경우), 마지막으로 해당 항목에 적절한 값이 없어서 값이 입력되지 않은 경우(예를 들어, 약품의 냄새를 기록하고 있는 칸에서 특정 약품은 향이 없는 경우)를 들 수 있다.

 

반면 NULL은 프로그래밍의 편의를 위해 미정(undefined) 값을 표현하는데 사용하는 개념이다. 

 

4. 벡터

벡터는 다른 프로그래밍 언어에서 흔히 접하는 배열의 개념으로, 한 가지 스칼라 데이터 타입의 데이터를 저장할 수 있다. 또한 벡터의 각 셀에는 이름을 부여할 수 있다. 따라서 벡터에 저장된 요소들을 색인을 사용하여 접근하는 것뿐 아니라 이름을 사용해서도 접근 할 수 있다. 이런 특징을 사용하면 데이터를 좀 더 의미 있는 형태로 저장할 수 있다.

 

4.1 벡터 관련 함수

c : 주어진 값들을 모아 벡터를 생성한다.

c(

   ... # 벡터로 모을 R 객체들

  )

반환 값은 벡터다.

 

names : 객체의 이름을 반환한다.

names(

   x   # 이름을 얻어올 R 객체

   )

반환 값은 x와 같은 길이의 문자열 벡터 또는 NULL이다.

 

names<- : 객체에 이름을 저장한다.

names (

    x     # 이름을 저장할 R 객체

   )   <- value  # 저장할 이름

 

5. 벡터 데이터 접근

벡터에서 특정 요소를 제외한 나머지 데이터를 가져오거나, 동시에 여러 셀의 데이터를 접근하는 것이 가능하다.

 

5.1 벡터 데이터 접근 문법

x[n] : 벡터 x의 n번째 요소. n은 숫자 또는 셀의 이름을 뜻하는 문자열

x[-n] : 벡터 x에서 n번째 요소를 제외한 나머지. n은 숫자 또는 셀의 이름을 뜻하는 문자열

x[idx_vector] : 벡터 x로부터 idx_vector에 지정된 요소를 얻어옴. 이떄 idx_vector는 색인을 표현하는 숫자 벡터 또는 셀의 이름을 표현하는 문자열 벡터

x[start:end] : 벡터 x의 start부터 end까지의 값을 반환함. 반환 값은 start위치의 값과 end 위치의 값을 모두 포함함

 

 

공부를 하면서 예제를 R 프로그램을 통해 구현보면서, 진행하고 있습니다. 아직까지는 기초적인 부분이기에 사진 첨부는 건너 뛰었고, 추후에 시각화 등을 공부할 때부터 사진을 첨부할 예정입니다.

728x90