카테고리 없음

[R스튜디오 출석 수업] 1-6강

datahaseo 2025. 5. 11. 15:56

<1강>

-R의 장단점

-세미콜론

-NA (결측치) / 

-Inf (무한대) / NaN (값이 정의 XX)

-na.rm=TRUE (결측치를 제외하고 계산하는 옵션

 

 

1. R 은 오픈소스 (널리 쓰인다, 응용이 쉽다, 누구나 쓸 수 있다)

 

 

 

2.단점

오픈소스이기 때문에 단점이 발생하기도 함 > 개별 패키지마다 사용법을 익히기도 해야함

 

 

3. 콜론하고 세미콜론 헷갈리지 말고 세미콜론 꼭 확인 ! 

 

 

 

4. 여러개의 원소를 가지고 있는 

 

데이터 구조 관련된 문제가 거의 10-15문제

그래픽 보다는 앞쪽이 더 많아 3-4문제

 

*이 그래프를 만들 때 쓰이는 코드는? 

그래픽

두 변수의 관계를 살펴볼 수 있는 그래프는?

>산점도 그래프다

 

확률 밀도를 나타내는 그래프는? 삼차원을 구연하는 그래프는? 

단계구분도의 기능은 무엇인가?

다음 그림이 의미하는바는?

 

>이렇게 뭔가 코드를 공부한다기 보다는

워크북 문제 ㄱㄱ

 

R 로 문서 만드는 문제도 워크북 ㄱㄱ

 

 

 

 

5.

 

INF 는 INFINITY

NA NOT AVAILABLE  // 대문자!!!! >> 소문자 na 는 xxxxxxx

*이 결측치를 어떻게 다뤄야 하는가 

NaN

 

**결측치가 있는데 평균 내야하면 오류가 발생하니까,

na.rm=TRUE 라는 옵션

결측치를 제외하고 함수값을 처리하는 옵션

 

*이때 NA.rm 이렇게 대문자라고 하면 xxxx

소문자로!!!!

 

(함수 옵션은 이렇게 대부분 소문자)

 

6. x<-c()

 

 

 

7. 기본 함수

 

 

<2강>

-통합개발환경 IDE

-문서화를 지원한다 

-패키지

다음중 R 에서 패키지를 의미하는 것으로 적절한것은? 

EX) 특정 분석을 수행할 수 있는 함수, 객체, 도움말, 데이터 등의 집합 = 패키지

 

R 을 처음 다운받은 것은 핸드폰을 처음 산 것과 같은 것

앱을 다운받아서 더 부가적인 서비스를 누리려면 패키지를 다운받아야함

 

 

 

편집기 r 콘솔 environment  탐색기

IDE 와 관련이 깊은 것은 ? 

-통합되어있다

-편집기,컴파일러,프로그램디버깅 등 여러 애플이케이션이 한 프로그램 안에 구현되어 있다

 

 

 

 

 

 

문서화를 할 수 있구나 ! 정도로 하고 워크북 푸셔요~ 

R스튜디오로도 문서화 작업이 가능합니다~

 

 

<3강>

데이터를 어떻게 불러오고 저장할 것인가

setwd :

 

 

getwd 

*seted 지정 안하고서 getwd 하면 기본 폴더로 올거임 (r 설치한 폴더)

r 은 다른 버전을 설치하면 폴더도 새로 생김!, 구분되어요

 

 

 

 

 

괄호로 감싸면 결과가 바로 나옵니다~!

()

 

*cbind , rbind 구분

 

 

 

*scan (값을 하나씩 받을 수 있음!)

 

 

 

 

 

 

 

*sink() 라는 함수로 만들면 파일이 생김!!

 

 

 

 

*write.table - read.table 

write.csv -read.csv

 

외부로 쓰는거가 write

read

 

csv 는 comma seperated value

 

write.table 일때랑 csv 일때랑 다른 형태로 저장이 되고

 

 

 

 

csv 로 읽으면 컴마로 구분되어 있는걸 읽을 때

 

 

 

공백으로 구분되어 있을 때는 read.table

 

 

 

 

, 로 구분되어 있는걸 table 로 읽으면 오류 발생!!

 

 

 

read.table 이더라도 sep="," 옵션 넣어주면 읽을 수 있어!

(csv 파일도 옵션을 주면 읽을 수는 있음!)

 

 

그리고 header=T 옵션이 있으면

가장 윗줄을 헤더로 인식 할건지 아닌지 여부

(변수명 영역)

 

read.table 에서 header=T 가 없으면

첫줄부터 데이터로 인식해버림

 

 

 

 

 

 

 

rm 는 없앤다는 뜻!! 

 

 

 

 

구분!!!

 

 

<4강>

 

벡터는 열 혹은 행 이고

같은 사이즈 (length, 원소의 갯수) 의 벡터를

묶어서 행렬을 만들 수 있음 

 

복수의 행렬을 배치하면 배열

 

벡터 > 행렬 > 배열 

 

논리값을 가지면 논리형 벡터

 

 

 

***rep 관련 문제가 꽤 많이 나옴

반복횟수를 벡터로 지정하면 앞의 항목 2번, 뒤에 꺼를 1번 

 

 

<과제>

1.본인의 경험 > 실제 교재를 펴서 실습을 했는지 확인하기 위함...

그냥 서술형으로~

1문항당 한 페이지

 

 

2. 벡터의 특정 위치에 접근해서 값을 바꾸는 함수는 이용해야해! NA

*na.rm=TRUE

 

 

 

 

 

 

 

문자 숫자 논리형을 한번에 합치면

다 문자로 나와!

 

그래서 combination 으로 바꾸면 다 그 위의 위계값으로 나와

문자가 가장 높아서 숫나나 논리형이랑 같이 나오면 숫나나 논리형이 문자로 바뀜

 

숫자 논리 > 숫자

문자 숫자 > 문자

문자 논리 > 문자

 

 

 

 

**리스트는 길이가 다르거나 속성이 다른 데이터도 저장할 수 있음

리스트로 묶으면, list(x1,x2,x3) 

다른 성분을 가진 벡터들을 따로따로 구분해줘 

(속성을 유지하면서 하나의 데이터로 묶이는 것)

 

 

 

 

 

**데이터 프레임은

엑셀 데이터 처럼 변수 이름이 있고 관측치가 나열되어 있는 형식이 데이터 프레임

 

 

일반화된 행렬

왜 일반화?

데이터 프레임은 결측치가 있으면 NA 가 무조건 있어야 하고 행렬처럼 모든값의 갯수가 다 같아야함

 

 

 

아까 리스트에서는 갯수가 달라도 값이 나왔지만 이렇게 data.frame 에 넣으면 에러가 나옴

 

*일반화된 행렬 = 데이터 프레임 이라고 생각하고 문제 풀자! 

(리스트랑 헷갈리지 말자)

 

 

 

 

 

 

 

 

 

이렇게 일반 행렬을 as.data.frame 이라고 하면 변수에 이름이 생기고 데이터 프레임으로 변형 가능

 

 

 

 

얘를 또 as.matrix 라고 행렬로 또 바꿔줄 수도 있음

즉. 데이터 프레임이나 행렬은 거의 비슷

 

 

 

행렬, 데이터 프레임은  이렇게 대괄호로 꺼낼 수 있고

m2[2,5] =20

 

 

리스트에서 값 꺼내려면

몇 번째 리스트인지, 그 리스트에서 몇 번쨰 값을 꺼내올건지 두개 설정 필요

l1 [[1]][3]  > 첫 번쨰 리스트의 세번째 값

 

 

 

 

 

 

 

*과제할 때 문제 쓰지 마시오!

코드 써야하는건 캡쳐해도 괜찮고

설명은 꼭 써야함 

 

 

 

3번 과제에서...

 

 

 

 

 

 

R 로 캡쳐해도 설명 ㄱㄱ 

 

 

us

USARRESTS[1:3,2]

1행에서 3행까지 2번째 열만

제외할 때는 마이너스 부호