본문 바로가기
마케팅 정보방/비밀 공부방

세상에서 가장 쉬운 통계학 입문 - 그로스마케터 권장도서

by 그로스마케터 제시 2022. 3. 8.
반응형

데이터 분석을 하는 사람이라면, 해당 데이터를 분석하기 위해 통계학적 지식이 필수적이다.
하지만 나는 통계를 1도 접해본 적이 없으므로, 기초 통계학 베이스부터 다지기로 했다. 그중 이 책을 참고서로 선정한 이유는, 통계학 입문자들에게 가장 추천하는 책이라길래 골랐다! 
책에 대한 전반적인 리뷰라기보단, 책을 통해 배운 것을 적으며 복습해 보고자 한다. 
 
 

[1장]

평균값 = 계급값x상대도수의 합계. 
평균을 구하는 다양한 방법:

  • (x+y)/2 = 산술평균 (가장 일반적인 방법)
  • √xy = 상승평균 (성장율 평균에 잘 사용됨)
  • √(x**2 + y**2) / 2 = 제곱평균 (마이너스 값이 있을 때. 편차들의 평균 값) 

평균으로 전체를 알 수는 없다. (평균소득 != 평등한 나라) 
고로, '표준 편차' 가 필요하다. 
표준 편차 = 분산에 루트한 수치. 편차들의 평균값. 
-> 평균을 기준으로 데이터가 대략 어느정도 멀리에 위치해 있는가를 알 수 있다. 
 
상대도수 = 각 도수가 전체에서 차지하는 비율
 
표준편차로 데이터의 특수성을 평가할 수 있다. 
+-1배 전후면 평범한 데이타, +-2배 전후면 특수한 데이터이다. 
 
표준 정규분포: 평균값 0, 표준편차 1
표준편차의 1배 이내 범위에 있는 데이터의 상대도수: 0.6826
표준편차의 2배 이내 범위에 있는 데이터의 상대도수: 0.9544
 
일반 정규분포 = α*표준 정규분포 +μ
α= 표준편차, μ=평균값
 
정규분포를 다시 표준 정규분포로 구하기 위한 식: z = (x-μ)/α 
 
예언하기: 표준정규분포 이용. 0에 가까운 것을 예언하는 것이 쉽게 맞추기 좋음
범위가 -1에서 +1까지의 수 -> 68.26%로 맞출 수 있음
-1.96 에서 +1.96 -> 95% 까지 맞출 수 있음. 
예언 범위는 작을수록 좋다 = 좌우 대칭의 구간
 
일반 정규분포의 95% 예언 적중구간 : (μ-1.96α ) 이상 (μ+1.96α ) 이하
 
일반 정규분포의 데이터 z는 표준정규분포의 데이터가 된다. 
 
모집단 = 전체 집단. 모수 = 예상하는 모집단의 종류.
가설 검정 = 모수 N 틀리면 가설 기각
부분으로 전체 추정: 귀납법 -> 소극적 평가
전체로 부분 추청 : 연역법 
 
모수로 추정되는 구간 = 95% 신뢰구간
구간추정: 95% 예언 적중구간에 현실적으로 관측된 데이터가 들어있을 모수만을 모으는 추정 방법
 
 

[2장]

선거에서의 데이터 = 유한모집단
나이 몸길이 데이터 = 무한모집단
 
통계적 추정의 목표: 무한 모집단 중 몇가지 데이터를 가지고 모집단 전체에 대해 어떠한 추측을 하는 일
독립시행: 다른 관측값이 나오는데 영향을 주지 않는 것
 
모평균: 모집단의 평균값. μ 사용
분산 = 표준편차**2. 편차 제곱의 합/데이터 수 
편차 = 데이터 수치 - 평균값
 
어떤 데이터 x를 알 때, x는 모평균 μ에서 α*2 의 범위 이내에 있다. 
정규분포 아니면 α*k 로 바꾸고 k 잘 선택하면 됨.
 
체비셰프 부등식 : μ에서 α*k 이상 떨어진 데이터는 전체의 1/(k**2) 의 비율 이하밖에 없음
 
표본 평균 = 관측된 데이터의 합계/데이터 총 갯수
 
대수의 법칙: n이 클수록 표본평균이 모평균에 가까운 수치일 확률이 커진다. 
 
정규 모집단에서 표본평균의 95% 예언 적중 구간: (μ±1.96*(α/√n))
표본 평균의 평균값 = 모평균 μ
표본 평균의 표준편차 = α/√n
 
표본평균 만드는 개수가 늘어날수록 예언구간 좁아짐 = 더 높은 예언
 
-정규모집단이라는 걸 알고, 모분산을 알 때, 95% 신뢰 구간에 있는 모평균 추정하기
X=표본평균 이라 가정
X-μ/(α/√n) 이 ±1.96 사이에 있다. 
= 모평균 μ가 (X±1.96*(α/√n)) 사이에 있다. 
 
관측 데이터로 계산한 분산을 표본분산이라고 한다. 
표본분산 s**2 = 편차 제곱의 합/n 
 
자유도 n인 카이제곱분포를 하는 V:
V = 표본 제곱의 합
카이제곱분포를 하는 V는 0 이상의 값밖에 나오지 않는다. 또한 0에 가까운 수치의 상대도수가 크고, 0에서 떨어진 수치의 상대도수는 급격하게 작아진다. 
 
-일반 정규모집단에서 카이제곱분포를 하는 V를 구하는 방법
V = (x-μ/α)**n 의 합
V는 자유도 n인 카이제곱분포를 한다. 
 
모평균을 알고, 정규모집단에서 n개의 데이터로부터 모분산 α**2 을 95% 신뢰구간으로 추정하기 위한 계산:
n개의 데이터로부터 V를 계산
자유도 n인 카이제곱분포의 95% 예언적중구간을 도표로부터 a이상 b이하 라는 형식으로 구함
a=<숫자/α**2 <=b 라는 부등식을 만들고 푼다. 
 
표본분산에 비례하는 통계량 W: 
W = (표본-표본평균 의 제곱)/모분산의 합
표본분산 s**2 = (표본-표본평균의 제곱)/n
 
표본분산에 데이터 수를 곱한 것 = W에 모분산을 곱한 것
n * s**2 = α**2 * W 
W는 표본분산에 비례하는 통계량
 
W = 표본분산*n / 모분산α**2 
W는 자유도 n-1인 카이제곱분포를 따르는 통계량이 된다. 
(실제 계산식은 책 참조)
 
T분포 : 모평균 이외의 것은 '현실에서 관측된 표본' 으로 계산할 수 있는 통계량
T분포 = (표본평균-모평균μ)*√자유도 / 표본표준편차
T분포 = (표준정규분포)*√자유도 / √카이제곱분포
T분포 = (표본평균-모평균)/표본표준편차*√n-1
 
자유도가 10이며, t분포를 따르는 데이터 T를 예언하면, 카이제곱분포 표를 통해 범위를 구할 수 있다. 
 
<모분산을 모를 때 모평균 추정>
구체적으로 얻은 표본을 바탕으로 모평균의 수치를 가정하면, 통계량 T를 계산할 수 있다. 
이 계산된 T의 수가 95% 예언적중구간에 들어있지 않으면 모평균은 기각한다. 
=검정의 발상 = T검정
T검정에서 살아남은 모평균들을 범위로 표시한 것이 모평균의 95% 신뢰구간이 된다. 
 
푸는법:
1. n개의 표본에서 표본평균X과 표본표준편차s 계산
2. T = (X-μ)/s *√n-1 
3. 자유도 n-1인 95% 에언 적중구간을 선택해, T가 ±구간 사이에 있다. 
4. 식을 대입해 μ에 대해서 푼다.
 
 
 
--------------
 
드디어 입문 책을 끝냈다! 마지막에는 T분포를 통해 표본평균으로 모평균을 구하는 법까지 알게 되었다. 
사실 머릿속에 꾸겨넣은 수준이라, 이론만 파악하고 실제로 어떻게 적용할지는 많은 예제를 접해봐야 할 것 같다. 
다행인 것은 통계학이 경영대에서 배운 수학 내용들과 아주 약간 익숙하다는 것.
내용이 기억나진 않지만 받아들이기에 엄청 힘들지는 않았다. 
특히 이 책이 설명이 워낙 잘 되어 있어서, 어릴 때는 암기했었던 공식을 차근차근 풀어주는 느낌이다. 
앞으로 통계를 공부하면서, 기초적인 내용이 헷갈릴 때 이 책을 참고하면 좋을 것 같다. 

반응형

댓글