R 처음 시작하기

R을 처음 시작하는 분들을 위한 글입니다.

아직 R과 RStudio를 설치 않은 분은 아래 링크에 있는 내용을 참고하여 R과 RStudio를 먼저 설치하여야 합니다.

R 및 RStudio 설치

R의 특징

R의 특징 및 코드 작성시 유의할 점을 정리하면 다음과 같습니다.

  • R은 명령어를 1줄씩 처리하고 그 결과를 바로 보여주는 인터프리터 언어입니다.
  • R의 콘솔창에서 > 기호는 명령 프롬프트입니다. > 뒤에 원하는 명령어를 입력하고 Enter를 치면 명령어가 실행됩니다.
  • R은 대소문자를 구별합니다. 명령어를 입력할 때 대소문자를 명확히 파악하고 입력하여야 합니다.
    예) √4 = 2의 경우 sqrt(4) (맞음), SQRT(4) (틀림)
  • R 콘솔창에서 키보드의 상향() 키를 누르면 이전에 실행했던 명령어를 순서대로 다시 불러올 수 있습니다.
  • #은 주석 기호(메모 유사)입니다. 즉 맨 앞에 #이 있으면 그 줄은 실행하지 않습니다.
  • 명령어를 입력할 때 오타가 많이 나고, 긴 명령어를 입력하거나 명령어를 재사용할 때는 R 콘솔창이 불편합니다. 따라서 주로 R스튜디오의 스크립트 창에서 명령어를 입력하고 [Ctrl + Enter]를 눌러 콘솔 창에 보내 명령어를 실행합니다.

RStudio에서 프로젝트 만들기

R에서 직접 명령어를 입력하여도 되지만, RStudio를 이용하는 것이 훨씬 편리합니다.

RStudio를 사용할 때 스크립트 창이나 콘솔 창에서 바로 작업을 하여도 되지만, 프로젝트를 만들어서 사용하면 관리가 편합니다.

프로젝트를 만들어서 하나의 폴더에 코드 및 데이터들을 모아 놓으면 관리하기가 편리하기 때문에 보통은 프로젝트를 만들어서 작업합니다.

프로젝트를 만들어 작업하는 방법은 다음과 같습니다.

  1. (프로젝트 만들기) 메뉴 [File][New Project] 클릭 → [New Directory][New Project][Directory name]에 프로젝트이름 입력(예, rbasic) → 그 아래에 폴더 위치 지정(예, 바탕화면) → [Create Project] 클릭
  2. (스크립트 파일 만들기) 메뉴 [File][New File][R Script] 클릭
  3. (스크립트 저장) 메뉴 [File][save]rbasic.R 로 저장
  4. 프로젝트 이름으로 만들어진 폴더에 스크립트 파일들이 저장됩니다. 이 폴더에 데이터를 넣어두면 R에서 데이터를 불러올 때 편리합니다. 일종의 워킹 디렉터리입니다.

기초 계산하기

조금 전 만든 스크립트 창에서 아래 명령어들을 입력하고 [Ctrl + Enter]를 눌러 명령어를 실행하여 봅시다. 실행 결과로 7이 출력이 됩니다. 앞으로 R 명령어는 이와 같은 방식으로 입력하고 실행하면 됩니다.

1 + 2 + (7 - 3)
## [1] 7

R에서 사용되는 계산용 연산자는 +(더하기), -(빼기), *(곱하기), /(나누기), ^(자승), %%(나머지), %/%(몫) 등이 있습니다. 스크립트 창에서 아래 코드를 입력하고 실행하여 봅시다.

6 / 3 * (5 + 7)
## [1] 24
5^2
## [1] 25
5%%2
## [1] 1
5%/%2
## [1] 2

변수(variable)

변수는 일종의 데이터를 담고 있는 상자입니다. 이 상자에는 숫자나 문자 등을 넣어 보관하거나 필요할 때 빼서 사용할 수 있습니다. 또 상자 안의 내용물을 바꿀 수도 있습니다.

변수명은 항상 왼쪽에 쓰며, <- 기호를 사용하여 변수라는 상자 안에 데이터를 넣을 수 있습니다. (예, a <- 2) 또한 <- 기호 대신 =를 사용하여도 됩니다.

변수명은 영어와 숫자 모두 사용할 수 있으나 시작 글자는 반드시 문자여야 합니다.

a <- 3
b <- 5
a + b
## [1] 8
sum(a, b)
## [1] 8

a <- 3a라는 변수에 3을 담고, b <- 5b라는 변수에 5를 담습니다. a + b는 a에 들어있는 3과 b에 들어 있는 5를 서로 더해서 8이라는 결과를 출력합니다. sum(a, b)sum()이라는 더하기 함수를 이용하여 서로 더해준 것입니다.

변수에는 숫자뿐만 아니라 문자 등 다른 데이터들도 들어갈 수 있습니다. 아래 코드는 hello라는 변수에 Hello World!라는 문자열을 담는 것입니다. 그 다음에 hello를 실행시켜 변수 안에 있는 내용을 출력합니다.

hello <- "Hello World!"
hello
## [1] "Hello World!"

변수에는 한 개의 값 뿐만 아니라 여러 개의 값들도 담을 수 있습니다. 아래 코드는 c() 함수를 이용해 변수에 여러 개의 값을 담는 명령어입니다. var <- c(1, 2, 5, 7, 8)는 var 변수에 5개의 숫자 1, 2, 5, 7, 8을 담습니다.

var * 3은 var 변수에 들어 있는 5개의 숫자에 각각 3을 곱해줍니다. 그 결과는 3, 6, 15, 21, 24가 출력됩니다.

var <- c(1, 2, 5, 7, 8) 
var * 3
## [1]  3  6 15 21 24

함수

R은 함수형 언어라 할 수 있을 정도로 함수들은 매우 중요합니다. 데이터 분석을 잘하려면 적절한 함수들을 찾아서 잘 활용하는 방법을 익혀야 합니다.

R에서 제공하는 함수는 매우 많습니다. 사실상 모든 함수를 외우는 것은 매우 어렵습니다. 더구나 수많은 패키지에 들어있는 함수까지 고려한다면 거의 불가능하다고 볼 수 있습니다. 자주 사용하는 주요 함수들만 기억하고, 나머지 함수들은 필요에 따라 인터넷에서 찾아보거나 도움말을 참조하여 활용하면 됩니다.

R에서의 함수를 사용하는 방법은 엑셀에서 함수를 사용하는 방법과 유사합니다. 아래 코드에서 mean(x)는 변수 x에 들어있는 값들의 평균값을 계산하여 줍니다.

x <- c(1, 2, 3)
mean(x)
## [1] 2

함수로 계산한 결과를 변수에 저장할 수 있습니다. mean(x)의 결과 값을 x_mean이라는 변수에 저장하여 봅시다.

x_mean <- mean(x)
x_mean
## [1] 2

패키지

R의 패키지는 목적에 맞게 R 함수, 데이터 등을 모아 놓은 것입니다. 현재 수천 개의 패키지가 존재하는 데, 이 중에서 유용하고 중요한 패키지들을 골라내어 사용법을 익히는 것이 필요합니다.

패키지는 기본적으로 CRAN에 등록 되어 있는 것을 다운 받아 설치합니다. 패키지를 설치하고 사용하는 방법은 다음 절차를 따릅니다.

  1. 패키지 설치하기 : install.packages("패키지명")
  2. 패키지 로드하기 : library(패키지명)
  3. 함수 사용하기

패키지 설치는 install.packages() 함수를 이용합니다. 패키지를 설치한다는 것은 CRAN과 같은 외부 사이트에서 패키지 파일을 다운받아 내 PC의 하드 드라이브에 저장하는 것입니다. 따라서 한번 설치하게 되면 업그레이드를 하지 않는 한 다시 설치할 필요가 없습니다.

패키지 로드는 library() 함수를 사용합니다. 패키지를 로드한다는 것은 패키지 파일을 내 PC의 주기억장치 등에 올려주어 바로 사용할 수 있게 해주는 것입니다. 그래서 컴퓨터를 다시 시작하거나 R을 다시 시작하면 패키지 로드를 다시 해주어야 합니다.

주요 패키지인 ggplot2를 설치하여 보겠습니다.

install.packages("ggplot2")

ggplot2 패키지를 로드하고 그 패키지 안에 있는 함수 qplot() 사용하여 빈도 막대그래프를 출력하여 보겠습니다.

library(ggplot2)

x <- c("a", "a", "b", "c")
qplot(x)