R

조건에 맞는 데이터 추출하기 filter

R
데이터 분석을 하다 보면 특정 조건에 맞는 데이터들을 따로 추출하여 분석을 해야 하는 경우가 있습니다. 예를 들면 여성만 추출하여 분석하거나 연령이 30대 이상인 경우만을 추출하여 분석해야 하는 경우가 있습니다. dplyr 패키지의 filter() 함수를 사용하면 편리합니다. 먼저 dplyr 패키지가 포함되어 있는 tidyverse 패키지를 로드 하겠습니다. library(tidyverse) 예시에 사용할 데이터는 starwars입니다. starwars 데이터는 dplyr 패키지에 포함되어 있는 데이터로서 영화 스타워즈 등장인물에 대한 정보(이름, 키, 몸무게 등)를 담고 있습니다. glimpse(starwars) ## Rows: 87 ## Columns: 14 ## $ name <chr> "Luke Skywalker", "C-3PO", "R2-D2", "Darth Vader", "Leia Or~ ## $ height <int> 172, 167, 96, 202, 150, 178, 165, 97, 183, 182, 188, 180, 2~ ## $ mass <dbl> 77.

기존 변수 값을 새 변수 값으로 변경하기 recode()

R
기존 변수 값을 새 변수 값으로 변경하는 방법으로 dplyr 패키지는 몇 가지 함수를 제공하고 있습니다. 참고로 dplyr 패키지는 tidyverse 패키지에 포함되어 있습니다. mutate() 함수 case_when() 함수 recode() 함수 if_else() 함수 이 글에서는 recode() 함수를 이용하는 방법을 중심으로 설명하겠습니다. recode() 함수는 기존의 값을 새로운 값으로 변경하는 역할을 하는 함수입니다. 주로 기존 변수의 특정 값을 새로운 값으로 변경할 때 많이 사용합니다. recode() 함수의 기본 사용법은 다음과 같습니다. recode(기존변수, 기존값1 = "새값1", 기존값2 = "새값2" ) recode() 함수의 이러한 특성때문에 mutate() 함수와 같이 사용한다면 기존 변수에서 새로운 변수를 만들 수 있습니다.

비교를 설명하는 문장을 동적으로 만들기 headliner

R
제목은 단순히 사실을 기술하는 것보다는 통찰력을 보여주는 문장으로 기술하는 것이 더 효과적일 수 있습니다. 예를 들면 1,000명 지원보다는 지원자 전년 대비 10% 감소와 같이 비교를 통한 통찰력 있는 문장이 더 도움이 됩니다. headliner 패키지는 비교를 설명하는 문장을 동적으로 구성할 수 있는 함수들을 제공합니다. 몇 가지 예시를 통해 사용법을 알아보겠습니다. 먼저 headliner 패키지를 로드하겠습니다. library(headliner) 단순 비교 문장 만들기 headline() 함수에 두 개의 숫자를 입력하여 단순 비교 문장을 만들어 보겠습니다. 예를 들어 이번 달 판매량이 101이고, 12개월 전 판매량이 107이라고 가정하고 이를 비교하는 문장을 만들 것입니다.

R 처음 시작하기

R
R을 처음 시작하는 분들을 위한 글입니다. 아직 R과 RStudio를 설치 않은 분은 아래 링크에 있는 내용을 참고하여 R과 RStudio를 먼저 설치하여야 합니다. R 및 RStudio 설치 R의 특징 R의 특징 및 코드 작성시 유의할 점을 정리하면 다음과 같습니다. R은 명령어를 1줄씩 처리하고 그 결과를 바로 보여주는 인터프리터 언어입니다. R의 콘솔창에서 > 기호는 명령 프롬프트입니다. > 뒤에 원하는 명령어를 입력하고 Enter를 치면 명령어가 실행됩니다. R은 대소문자를 구별합니다. 명령어를 입력할 때 대소문자를 명확히 파악하고 입력하여야 합니다.

R 및 RStudio 설치

R
R은 오픈소스 프로그램으로 다양한 통계분석, 데이터 마이닝, 머신러닝, 그래프 작성 등을 위한 프로그래밍 언어입니다. R의 장점은 다음과 같습니다. R은 오픈소스로서 무료입니다. 프로그래밍 언어로서 사용자의 실력에 따라 매우 복잡한 분석도 쉽게 자동화하여 수행할 수 있습니다. 다양한 최신 통계분석 기법, 데이터 마이닝 기법, 머신러닝 기법, 그래프 작성 기법 등이 사용자들에 의해 제공됩니다. 전 세계적으로 사용자들이 다양한 예제를 공유합니다.(영문 예제 다수) RStudio란 R을 편리하게 사용할 수 있는 환경을 제공해주는 통합개발환경(IDE) 프로그램(앱)입니다.

기존 변수에서 새 변수 만들기 case_when()

R
기존 변수에서 새로운 변수를 만드는 방법으로 dplyr 패키지는 몇 가지 함수를 제공하고 있습니다. 참고로 dplyr 패키지는 tidyverse 패키지에 포함되어 있습니다. mutate() 함수 case_when() 함수 recode() 함수 if_else() 함수 이 글에서는 case_when() 함수를 이용하는 방법을 중심으로 설명하겠습니다. case_when() 함수의 기본 사용법은 다음과 같습니다. 새로운 변수를 만들려면 mutate() 함수와 같이 사용하여야 합니다. library(tidyverse) df %>% mutate(새변수 = case_when(기존변수 < 30 ~ "낮음", 기존변수 < 60 ~ "중간", TRUE ~ "높음")) 위 구문에서 TRUE는 앞의 조건들에 맞지 않는 나머지를 의미합니다.

R Markdown 문서 편집

R
R Markdown을 알면 R로 데이터분석을 하면서 문서를 작성할 때 편리합니다. R Markdown은 평범한 텍스트로 문서를 작성할 수 있게 해 주는 Markdown 언어를 기반으로 하고 있기 때문에 거의 유사합니다. R Markdown을 이용하려면 rmarkdown 패키지가 필요하지만, 만일 RStudio를 사용하고 있다면 자동으로 이를 이용하기 때문에 설치나 로드를 하지 않아도 됩니다. 문서 서식 R Markdown 문서는 아래 그림처럼 크게 세 개의 파트로 구분됩니다. YAML Header, Code Chunk, Markdown Text입니다.

RStudio Addin을 만드는 방법

R
RStudio의 Addin은 상황에 따라 편리함을 제공해줍니다. 자주 쓰는 함수를 만들고 이를 메뉴에 등록하여 사용하면 시간과 노력이 덜 들게 됩니다. RStudio에 Addin을 만드는 방법은 R 패키지를 만들고, 이 패키지의 함수를 ’addins.dcf’에 입력하면 됩니다. 그 다음에 패키지를 설치하면 자동으로 Addin으로 등록됩니다. R 패키지와 R 함수 만들기 addins.dcf 파일에 입력하기 패키지 설치하기 R 패키지와 R 함수 만들기 RStudio를 실행하고 [File]-[New Project]-[New Directory]-[R Package]를 클릭합니다. 패키지를 만드는 창에서 패키지 이름과 프로젝트가 위치할 폴더를 지정하고 [Create Project]를 클릭합니다.

서울시 범죄 현황

R
서울시는 25개의 자치구로 구성되어 있다. 서울시 5대 주요 범죄 발생 및 검거 데이터를 이용하여 각 자치구의 범죄현황에 대해 탐색하고자 한다. 분석에 사용한 데이터는 다음과 같다. 서울시 관서별 5대 범죄 발생 검거 현황 데이터(2017년 기준) 출처 : 공공데이터포털의 서울특별시 관서별 5대범죄 발생 검거현황(2000~2017) 정리된 데이터 다운로드 : seoul_crime_2000_2017.csv 경찰관서 주소 데이터 출처 : 경찰청의 전국경찰관서안내 정리된 데이터 다운로드 : police_address.csv 서울시 CCTV 현황 데이터(2017년 기준) CCTV 데이터 출처 : 서울열린데이터광장의 서울시 자치구 년도별 CCTV 설치 현황 - 2019.

다차원 데이터의 시각화

R
이 글은 Dipanjan (DJ) Sarkar(2018)의 “Effective Visualization of Multi-Dimensional Data”를 참고하여 작성하였으며, python 코드로 되어 있는 것을 R 코드로 변환하였다. 분석에 사용하고자 하는 데이터는 UCI Machine Learning Repository에서 제공하는 Wine Quality Data Set이다. 와인 품질 데이터는 2개의 파일 즉 레드 와인과 화이트 와인 데이터로 구성있다. 레드와인 파일에는 1,599개의 관측값이, 화이트와인 파일에는 4,898개의 관측값이 들어있다. 두 개 파일 모두 11개의 화학성분 변수와 1개의 품질 변수로 구성되어 있다.