Ai 개발자 과정 8일차 과정
기술통계학
결측치는 원칙이 제거지만 이상치는 제거가 아님(따로 관리해야함)
A학생의 국어 성적은 2차원의 표로 보면 한 컬럼 밖에 안 됨. 오늘은 2개의 변량이 있을 시 상관 관계에 대해 알아볼 예정. 공분산을 먼저 공부 후 상관계수를 배울 것임.
공분상과 상관계수 함수
Cov() ← 공분산값 Cor() ← 상관계수
공분산(Covariance)
어떤 두가지 변수(x,y)가 변하는 정도를 수로 나타낸 것 수학적으로 봤을 땐 이 정의로 이해하면 되지만 데이터 분석에서는 x, y가 각각 표의 2개의 행이라고 이해 하면 됨.
분산 공식
x(국어) ← 변수
y(수학)
(+ * +) → + : 국어랑 수학을 잘해도 플러스 (양적 선형관계)
(- * -) → + : 국어랑 수학을 둘 다 못해도 플러스 (양적 선형관계)
(+ * -), (- * +) → - : 둘 중 하나만 못하면 마이너스 (음적 선형관계)
변량이 같은 성향이면 플러스(+)
다른 성향이면 마이너스(-)
공분산은 절대적인 값이 중요한 것 보단
이런 성향(방향)을 분석하는게 더 중요.
공분산 값이 양(+)의 값 이면 두 변량이 같이 올라감,
공분산 값이 음(-)의 값이면 두 변량이 같이 내려감
공분산이 0일 경우에 상관관계가 없다고 보면 됨.
공분산이 그래프로 넘어가면 내적임
포물선 그래프는 비선형 그래프임
상관계수(Correlation Coefficient)
측정 단위를 고려하지 않은 표준화된 비교값
상관분석은 두 변수 간의 선형적인 관계를 정량적인 지표로 나타낸다.
상관분석으로 나온 결과는 x가 원인인지 y가 원인인지 인과관계는 알 수 없고 성향만 알 수 있음.
인과관계를 알기 위해서는 회기 분석을 해야함.
-1에 가까우면 음에 상관관계
0이면 상관관계 X
1에 가까우면 양에 상관관계
키 값을 가져올 땐 $를 가져오는게 맞지만 2차원 형태이면 [ , ] 배열 형태로 가져올 수 있음
data("iris")
head(iris)
str(iris)
help(par)
par(mfrow=c(2,2),mar=c(1,1,1,1))
plot(iris[,-5]) # 전체 행, -5열은 제외. 내장된 시각화 함수
cor(iris[, -5])
install.packages("corrplot") # corrplot 라이브러리 설치
library(corrplot)
iris_cor<-cor(iris[,-5])
corrplot(iris_cor, method="circle")
corrplot(iris_cor, method="ellipse")
y = wx + b
w=r이랑 같음.
y=x는 선형 관계임
여기서 의미있는 값은 w와 b임
w는 양적인 값도 나옴.
w = -1
w = 0
w = 1
벡터의 내적
스칼라의 값이 어려개가 모이면 값들이 갖고
있는 방향성이 있기 때문에 벡터가 됨.
어떤 데이터든 공간좌표계에 벡터로 만들기만
하면 대수학으로 계산이 가능함
벡터의 내적은 두 공간사이에 약속으로 만들어진 것이기 때문에 공식을 알필요 없음.
2개의 벡터
공식이 중요하기 보단 양 변이 같다라는 것이 중요함.
X, Y는 각각 행과 열이라고 보면 됨.
공분산이랑 식이 비슷함.
벡터 사이에 90도가 된다면 0이어서 상관관계가 없다.
하지만 0도, 180도가 나오면 상관 관계가 있음
0도는 방향이 일치하고 180도는 방향이 반대임.
추정 통계학
표본집단을 추측을 통해서 모집단의 통계치 예측하는 것
확률 : 어떤 일이 일어날 것 같은
표본공간 : 확률시험으로부터 출현 가능한 모든 결과의 모임
확률은 반복횟수가 매우 클수록 n/n으로 접근해감.
P( A | B ) : 사건 B가 발생했을 때 사건 A가 발생핛 확률
𝑃 (𝐴 ∩ 𝐵) = 𝑃( 𝐴 ) 𝑃( 𝐴|𝐵 )= 𝑃( 𝐴 ∩ 𝐵 ) = 𝑃 (𝐴) * 𝑃(𝐵)
P (A|B) = 독립사건이기 때문에 A가 일어날 확률은 P (A)임
직관적으로 이해해야함.
분석에 대부분은 확률을 기반으로 진행함
확률 → 조건부 확률 → 공식정도는 알아둬야함
머신러닝을 하게 되면 문자열을 숫자로 바꿔야 효율적이어서 수치형 데이터로 변환을 자주하게 됨.