카테고리 없음

[통계학개론] 1강 데이터와 통계학

datahaseo 2025. 2. 17. 22:49

1.통계학의 기본 개념

-데이터는 어떤 현상을 이해하기 위해 그 현상을 관찰하여 데이터를 수집한 것 ( 설문조사, 실험 등)

-통계학은 불확실한 현상 이해를 위해 데이터 수집, 요약, 추론 (결론) 을 찾는 학문

 

모집단 (전체 집단) -- 모수 (모집단의 특성을 나타내는 대푯값)

표본(모집단을 알기 위해 실제로 관측한 모집단의 일부)  --통계량 (표본의 특성을 나타내는 대푯값)

 

 

2. R 스튜디오 기초

(1) 객체 '<-' 로 정의가능

a<- 3 

b<-4

a+b = 7 

 

(2)벡터 - 어떤 값들이 일렬로 있는 것

2.1 c(1,2,3,4) , c(1:4) 

1,2,3,4

2.2 seq(1,8,2) 

1,3,5,7

 

2.3 h<c(1:4,rep(1,8,2))

h = 1,2,3,4,1,3,5,7

 

 

 

(3) 데이터의 형식

3.1 숫자형

3.2 범위형

as.factor (1:4)  >> 숫자 1~4 가 아니고 , 어떤 카테고리의 값 이름이 1~4 로 지정되는 것

3.3 문자형

as.character

3.4 논리형

true 혹은 false 값을 가침

i<-c(1,2,3,4,5)

m<-i>3

(false,false,false,true,true)

 

 

 

(4) 행렬 * 행렬의 요소들은 데이터형이 통일되어야함 , 여러 벡터의 모임

4.1cbind (컬럼의 집합)

a<-c(1,2,3,4,5)

b<-rep(10,5)

a b

1 10

2 10

3 10

4 10 10, 5 10

 

4.2 rbind() (row 의 집합)

rbing(a,b)

a 1,2,3,4,5

b 10, 10, 10, 10, 10,

 

4.3 matrix()

matrix (1:4,2,2)

 1  3

 2  4

 

matrix(1:9,3,3

1  4  7

2  5  8

3  6  9

 

 

*행렬의 곱셈은 드르륵 드르륵

1  3      5 7

2  4      6 8

 

a%*%b

 

>> 1*5+3*6   1*7+3*8

      2*5+2*6   2*7+4*8

 

 

*행렬 참고할 점

 

1) 행렬을 곱할 때

 m*n  i*j 의 형식이면,

 

n,i 는 무조건 같아야하고, 결과는 m*j 로 나온다

 

 

2) 행렬의 형식은 곱셈의 교환 법칙 같은거 없이 위치에 따라 결정된다

 

 

 

3) 2*3 꼴 > 행 2개 열 3개 

 

 

 

4) 역행렬

어떤 정수가 1이 나오게 하는게 역원인데

2* 1/2 = 1

 

행렬의 역원은 

( 1 0

   0 1 )

 

따라서 행렬 A 에 B 를 곱했을 때 I 가 나오면

B는 A 의 역행렬

 

R 에서는 solve() 라는 함수로 바로 구할 수 있다

 

*행렬에서 특정 열, 행, 요소 값 가져오기

1 3

2 4

라는 행렬 s 가 있으면

s[1,]    >> 1 3

s[1,2] >> 3

s[,1] >> 1,2

s[,2] >> 3 4

s[2,2] >> 4

 

(5) 데이터 프레임

name<-c('a','b','c')
age<-c(27,30,55)
sex<-as.factor(c('f','m','f'))
dat<-data.frame(name,age,sex)
dat$name >> 'a' , 'b' , 'c'