[R] Data Load & Graphic
'R' Data Load
1) csv 파일 불러오기
- 명령어 read.table
read.table("csv파일 경로", [header | seq ]
* 파일의 경로는 \\ 또는 /를 사용한다.
* header : T값을 입력하면 csv파일의 첫 줄을 변수명으로 지정할 수 있다.
* seq : 데이터가 어떤 값으로 구분되어 있는지 지정해준다.
> data1 <- read.table("D:\\DATA\\example.csv", header=T, sep=",")
- 명령어 read.csv
read.table과 유사하지만, sep 옵션을 통해 구분자를 명시할 필요가 없다.
2) txt 파일 불러오기
- 명령어 read.table에서 sep 옵션을 사용하지 않으면 txt파일을 불러올 수 있다.
- 구분자를 명시하지 않았기에 txt파일 자체가 구분자나 형식 등을 잘 지켜서 작성되어 있어야 한다.
> data2 <- read.table("D:/DATA/example.txt")
3) 엑셀 파일(xls/xlsx) 불러오기
가. 엑셀을 csv파일 형식으로 저장하여 1) csv 파일 불러오기 방식을 이용하는 방법
나. 엑셀 파일을 직접 불러올 수 있는 패키지를 설치하는 방법
> library(RODBC) # 패키지 열기, "" 없는 것에 유의
> new <- odbcConnectExcel("c:\\data\\mydata") # 엑셀파일의 경로 입력(확장자 생략)
> yourdata <- sqlFetch(new, "Sheet1") # 엑셀파일의 워크시트 이름 입력(대소문자 구별)
> close(new)
Graphic Function
가. 산점도 그래프
- x변수와 y변수의 값을 한눈에 살펴볼 수 있도록 평면에 점을 찍어 표현
- plot(x, y) 또는 plot(y~x) 함수를 사용한다.
나. 산점도 행렬
- 여러 가지 변수들에 대해서 각각의 산점도를 한눈에 살펴볼 수 있도록 확장된 산점도 행렬
- pairs 명령어를 이용한다.
( 'main =' 옵션 : 최상단에 제목 표기 / 'pch =' 옵션 : 점의 모양 변경 / 'bg =' 옵션 : 데이터에 따른 색상 부여)
다. 히스토그램과 상자 그림
- 히스토그램과 상자 그림을 통해 자료의 분포를 손쉽게 확인할 수 있다.
- hist(x) 함수를 통해 히스토그램을 생성하며, 'prob=T' 옵션으로 상대도수로 변경이 가능하다.
( 기본적으로 세로축에 도수가 표기된다. )
- 상자 그림은 boxplot(x) 함수를 통해 생성할 수 있다.