728x90
반응형
자, 우리가 하고자 하는 것이 뭐다? 그렇다 데이터 분석이다. 그렇다면 R 프로그램에서 데이터를 어떻게 인식하고 어떻게 처리하는지 아래의 코드를 통해서 알아보자.
변수와 데이터의 타입, 그리고 데이터의 구조 및 데이터프레임 추가적으로 리스트 정도만 알면 어지간한 통계분석에 있어서 막힐 일은 없다고 보면 된다. 아래의 코드를 복사해서 설치한 R에 붙여넣어도 되고 아니면 첨부된 r script 파일을 직접 열어도 상관없다. <- 괜찮다. 스크립트 언어라서 바이러스 없다. 실행파일이 아니므로 안심하고 열어도 된다.
################ 변수 ##############
variable1<-1
variable1
# 변수할당은 <-, = 모두 작동한다.
variable2=2
variable2
variable1 + variable2
############ 데이터타입 ###########
variable3<-3
variable3
variable4<-"4"
variable4
# 수치형 데이터와 문자형 데이터는 연산이 불가능하다.
variable3+variable4
variable5<-"5"
variable5
# 문자형 데이터와 문자형 데이터도 사칙연산은 안된다.
variable4+variable5
############ 데이터구조 ###########
#스칼라 : 변수하나에 값이 하나 들어가는 형태
data1<-c(1) #combine, 대문자로 쓰면 명령어가 다르다 유의하자.
data1
#벡터 : 변수하나에 여러개의 값이 들어가는 형태
data2<-c(1,2,3)
data2
data2same<-c(1:3) #위의 1,2,3 을 이렇게 써도 된다.
data2same
data2t<-t(data2) #transpose, 열->행으로 변환하는 방법
data2t
#같은 타입의 데이터들만 들어갈 수 있다. 문자와 숫자 혼용 불가
#이렇게 타입이 다른 형태를 지정하기 위해서는 데이터프레임, 리스트를 사용
data3<-c(1,"2",3)
data3
#행렬 : 변수하나에 여러개의 값이 들어가지만 행과 열을 가진 형태
data4<-matrix(1,2,3)
data4
#배열 : 3차원적으로 행렬이 여러개 겹쳐있는 형태
data5<-array(1,c(2,2,2))
data5
############ 데이터프레임 ###########
#excel의 구조와 매우 비슷하다고 생각하면 쉽다.
#컬럼명과 데이터 다만 여기서 인덱싱은 $표시로 하면 된다.
value1<-c(1:4)
value2<-factor(c("t","f","t","f"))
dataframe1<-data.frame(id=value1, bool=value2)
dataframe1
str(dataframe1)
dataframe1$id
dataframe1$bool
############ 리스트 ###########
#기억하자 리스트는 잡식성이다. 어떤 데이터 타입이든 다 담을 수 있다.
mylist<-list(data1,data2,data3,data4,data5,dataframe1)
mylist
str(mylist)
기초만 짚고 넘어간다고 생각하자. 어차피 샘플코드처럼 실무에서 데이터를 일일이 다 정의하는 케이스는 거의 없다. 통상 excel, csv, txt 파일로 읽어서 데이터를 처리하거나 혹은 RmySQL을 이용해서 데이터베이스로 부터 직접 접근하는 방법들을 훨씬 많이 쓴다.
728x90
반응형
'인과관계분석' 카테고리의 다른 글
삼성전자의 중회귀분석 with R (0) | 2020.09.02 |
---|---|
코스피지수의 회귀분석 with R (0) | 2020.09.02 |
R 통계분석 (0) | 2020.09.01 |
R 데이터 가져오기 (0) | 2020.09.01 |
R 프로그램을 설치해보자 (0) | 2020.09.01 |
댓글