[통계학개론] 1강 데이터와 통계학
1.통계학의 기본 개념
-데이터는 어떤 현상을 이해하기 위해 그 현상을 관찰하여 데이터를 수집한 것 ( 설문조사, 실험 등)
-통계학은 불확실한 현상 이해를 위해 데이터 수집, 요약, 추론 (결론) 을 찾는 학문
모집단 (전체 집단) -- 모수 (모집단의 특성을 나타내는 대푯값)
표본(모집단을 알기 위해 실제로 관측한 모집단의 일부) --통계량 (표본의 특성을 나타내는 대푯값)
2. R 스튜디오 기초
(1) 객체 '<-' 로 정의가능
a<- 3
b<-4
a+b = 7
(2)벡터 - 어떤 값들이 일렬로 있는 것
2.1 c(1,2,3,4) , c(1:4)
1,2,3,4
2.2 seq(1,8,2)
1,3,5,7
2.3 h<c(1:4,rep(1,8,2))
h = 1,2,3,4,1,3,5,7
(3) 데이터의 형식
3.1 숫자형
3.2 범위형
as.factor (1:4) >> 숫자 1~4 가 아니고 , 어떤 카테고리의 값 이름이 1~4 로 지정되는 것
3.3 문자형
as.character
3.4 논리형
true 혹은 false 값을 가침
i<-c(1,2,3,4,5)
m<-i>3
(false,false,false,true,true)
(4) 행렬 * 행렬의 요소들은 데이터형이 통일되어야함 , 여러 벡터의 모임
4.1cbind (컬럼의 집합)
a<-c(1,2,3,4,5)
b<-rep(10,5)
a b
1 10
2 10
3 10
4 10 10, 5 10
4.2 rbind() (row 의 집합)
rbing(a,b)
a 1,2,3,4,5
b 10, 10, 10, 10, 10,
4.3 matrix()
matrix (1:4,2,2)
1 3
2 4
matrix(1:9,3,3
1 4 7
2 5 8
3 6 9
*행렬의 곱셈은 드르륵 드르륵
1 3 5 7
2 4 6 8
a%*%b
>> 1*5+3*6 1*7+3*8
2*5+2*6 2*7+4*8
*행렬 참고할 점
1) 행렬을 곱할 때
m*n i*j 의 형식이면,
n,i 는 무조건 같아야하고, 결과는 m*j 로 나온다
2) 행렬의 형식은 곱셈의 교환 법칙 같은거 없이 위치에 따라 결정된다
3) 2*3 꼴 > 행 2개 열 3개
4) 역행렬
어떤 정수가 1이 나오게 하는게 역원인데
2* 1/2 = 1
행렬의 역원은
( 1 0
0 1 )
따라서 행렬 A 에 B 를 곱했을 때 I 가 나오면
B는 A 의 역행렬
R 에서는 solve() 라는 함수로 바로 구할 수 있다
*행렬에서 특정 열, 행, 요소 값 가져오기
1 3
2 4
라는 행렬 s 가 있으면
s[1,] >> 1 3
s[1,2] >> 3
s[,1] >> 1,2
s[,2] >> 3 4
s[2,2] >> 4
(5) 데이터 프레임
name<-c('a','b','c')
age<-c(27,30,55)
sex<-as.factor(c('f','m','f'))
dat<-data.frame(name,age,sex)
dat$name >> 'a' , 'b' , 'c'