R 처음 시작하기
R을 처음 시작하는 분들을 위한 글입니다.
아직 R과 RStudio를 설치 않은 분은 아래 링크에 있는 내용을 참고하여 R과 RStudio를 먼저 설치하여야 합니다.
R의 특징
R의 특징 및 코드 작성시 유의할 점을 정리하면 다음과 같습니다.
- R은 명령어를 1줄씩 처리하고 그 결과를 바로 보여주는 인터프리터 언어입니다.
- R의 콘솔창에서
>
기호는 명령 프롬프트입니다.>
뒤에 원하는 명령어를 입력하고Enter
를 치면 명령어가 실행됩니다. - R은 대소문자를 구별합니다. 명령어를 입력할 때 대소문자를 명확히 파악하고 입력하여야 합니다.
예) √4 = 2의 경우 sqrt(4) (맞음), SQRT(4) (틀림) - R 콘솔창에서 키보드의 상향(
↑
) 키를 누르면 이전에 실행했던 명령어를 순서대로 다시 불러올 수 있습니다. #
은 주석 기호(메모 유사)입니다. 즉 맨 앞에#
이 있으면 그 줄은 실행하지 않습니다.- 명령어를 입력할 때 오타가 많이 나고, 긴 명령어를 입력하거나 명령어를 재사용할 때는 R 콘솔창이 불편합니다. 따라서 주로 R스튜디오의 스크립트 창에서 명령어를 입력하고
[Ctrl + Enter]
를 눌러 콘솔 창에 보내 명령어를 실행합니다.
RStudio에서 프로젝트 만들기
R에서 직접 명령어를 입력하여도 되지만, RStudio를 이용하는 것이 훨씬 편리합니다.
RStudio를 사용할 때 스크립트 창이나 콘솔 창에서 바로 작업을 하여도 되지만, 프로젝트를 만들어서 사용하면 관리가 편합니다.
프로젝트를 만들어서 하나의 폴더에 코드 및 데이터들을 모아 놓으면 관리하기가 편리하기 때문에 보통은 프로젝트를 만들어서 작업합니다.
프로젝트를 만들어 작업하는 방법은 다음과 같습니다.
- (프로젝트 만들기) 메뉴
[File]
→[New Project]
클릭 →[New Directory]
→[New Project]
→[Directory name]
에 프로젝트이름 입력(예, rbasic) → 그 아래에 폴더 위치 지정(예, 바탕화면) →[Create Project]
클릭 - (스크립트 파일 만들기) 메뉴
[File]
→[New File]
→[R Script]
클릭 - (스크립트 저장) 메뉴
[File]
→[save]
→rbasic.R
로 저장 - 프로젝트 이름으로 만들어진 폴더에 스크립트 파일들이 저장됩니다. 이 폴더에 데이터를 넣어두면 R에서 데이터를 불러올 때 편리합니다. 일종의 워킹 디렉터리입니다.
기초 계산하기
조금 전 만든 스크립트 창에서 아래 명령어들을 입력하고 [Ctrl + Enter]
를 눌러 명령어를 실행하여 봅시다. 실행 결과로 7
이 출력이 됩니다. 앞으로 R 명령어는 이와 같은 방식으로 입력하고 실행하면 됩니다.
1 + 2 + (7 - 3)
## [1] 7
R에서 사용되는 계산용 연산자는 +
(더하기), -
(빼기), *
(곱하기), /
(나누기), ^
(자승), %%
(나머지), %/%
(몫) 등이 있습니다. 스크립트 창에서 아래 코드를 입력하고 실행하여 봅시다.
6 / 3 * (5 + 7)
## [1] 24
5^2
## [1] 25
5%%2
## [1] 1
5%/%2
## [1] 2
변수(variable)
변수는 일종의 데이터를 담고 있는 상자입니다. 이 상자에는 숫자나 문자 등을 넣어 보관하거나 필요할 때 빼서 사용할 수 있습니다. 또 상자 안의 내용물을 바꿀 수도 있습니다.
변수명은 항상 왼쪽에 쓰며, <-
기호를 사용하여 변수라는 상자 안에 데이터를 넣을 수 있습니다. (예, a <- 2
) 또한 <-
기호 대신 =
를 사용하여도 됩니다.
변수명은 영어와 숫자 모두 사용할 수 있으나 시작 글자는 반드시 문자여야 합니다.
a <- 3
b <- 5
a + b
## [1] 8
sum(a, b)
## [1] 8
a <- 3
은 a
라는 변수에 3을 담고, b <- 5
는 b
라는 변수에 5를 담습니다. a + b
는 a에 들어있는 3과 b에 들어 있는 5를 서로 더해서 8이라는 결과를 출력합니다. sum(a, b)
은 sum()
이라는 더하기 함수를 이용하여 서로 더해준 것입니다.
변수에는 숫자뿐만 아니라 문자 등 다른 데이터들도 들어갈 수 있습니다. 아래 코드는 hello라는 변수에 Hello World!
라는 문자열을 담는 것입니다. 그 다음에 hello
를 실행시켜 변수 안에 있는 내용을 출력합니다.
hello <- "Hello World!"
hello
## [1] "Hello World!"
변수에는 한 개의 값 뿐만 아니라 여러 개의 값들도 담을 수 있습니다. 아래 코드는 c()
함수를 이용해 변수에 여러 개의 값을 담는 명령어입니다. var <- c(1, 2, 5, 7, 8)
는 var 변수에 5개의 숫자 1, 2, 5, 7, 8을 담습니다.
var * 3
은 var 변수에 들어 있는 5개의 숫자에 각각 3을 곱해줍니다. 그 결과는 3, 6, 15, 21, 24가 출력됩니다.
var <- c(1, 2, 5, 7, 8)
var * 3
## [1] 3 6 15 21 24
함수
R은 함수형 언어라 할 수 있을 정도로 함수들은 매우 중요합니다. 데이터 분석을 잘하려면 적절한 함수들을 찾아서 잘 활용하는 방법을 익혀야 합니다.
R에서 제공하는 함수는 매우 많습니다. 사실상 모든 함수를 외우는 것은 매우 어렵습니다. 더구나 수많은 패키지에 들어있는 함수까지 고려한다면 거의 불가능하다고 볼 수 있습니다. 자주 사용하는 주요 함수들만 기억하고, 나머지 함수들은 필요에 따라 인터넷에서 찾아보거나 도움말을 참조하여 활용하면 됩니다.
R에서의 함수를 사용하는 방법은 엑셀에서 함수를 사용하는 방법과 유사합니다. 아래 코드에서 mean(x)
는 변수 x
에 들어있는 값들의 평균값을 계산하여 줍니다.
x <- c(1, 2, 3)
mean(x)
## [1] 2
함수로 계산한 결과를 변수에 저장할 수 있습니다. mean(x)
의 결과 값을 x_mean
이라는 변수에 저장하여 봅시다.
x_mean <- mean(x)
x_mean
## [1] 2
패키지
R의 패키지는 목적에 맞게 R 함수, 데이터 등을 모아 놓은 것입니다. 현재 수천 개의 패키지가 존재하는 데, 이 중에서 유용하고 중요한 패키지들을 골라내어 사용법을 익히는 것이 필요합니다.
패키지는 기본적으로 CRAN에 등록 되어 있는 것을 다운 받아 설치합니다. 패키지를 설치하고 사용하는 방법은 다음 절차를 따릅니다.
- 패키지 설치하기 :
install.packages("패키지명")
- 패키지 로드하기 :
library(패키지명)
- 함수 사용하기
패키지 설치는 install.packages()
함수를 이용합니다. 패키지를 설치한다는 것은 CRAN과 같은 외부 사이트에서 패키지 파일을 다운받아 내 PC의 하드 드라이브에 저장하는 것입니다. 따라서 한번 설치하게 되면 업그레이드를 하지 않는 한 다시 설치할 필요가 없습니다.
패키지 로드는 library()
함수를 사용합니다. 패키지를 로드한다는 것은 패키지 파일을 내 PC의 주기억장치 등에 올려주어 바로 사용할 수 있게 해주는 것입니다. 그래서 컴퓨터를 다시 시작하거나 R을 다시 시작하면 패키지 로드를 다시 해주어야 합니다.
주요 패키지인 ggplot2
를 설치하여 보겠습니다.
install.packages("ggplot2")
ggplot2
패키지를 로드하고 그 패키지 안에 있는 함수 qplot()
사용하여 빈도 막대그래프를 출력하여 보겠습니다.
library(ggplot2)
x <- c("a", "a", "b", "c")
qplot(x)