통계학 입문 책 리뷰
음 어쩌다 보니 책 리뷰 블로그가 되어가는거 같지만 암튼 통계학 입문 책리뷰
이번에는 어느정도 노션에 정리하면서 써놔서 기억에 남는게 평소보다 많음
바로 ㄱㄱ
책에서 말하는 통계에는 두가지가있다
기술 통계 : 확보된 데이터로 현재의 상황에 대한 인사이트를 얻는 것
e.g) 도수분포표, 히스토그램, 표준편차
추리 통계 : “부분으로 전체를 추리 하는 것” = 귀납법
e.g) 투표 개표일만에 당선확정 보도, 딥러닝
그리고 현재, 20세기 이후의 통계는 추리 통계이다.
1장은 도수분포표, 평균, 분산, 표준편차에 대해 얘기하는데 정말 쉬운 얘기만 하는 책이라 이부분은 다 알거라 생각하고 pass
다음은 2장
먼저 모집단!
세상에 있는 데이터들은 우리가 관측한 데이터보다 훠ㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓㅓㄹ씬 많은 양의 데이터가 있고 그 전체 데이터를 모집단이라함. 그리고 그 모집단에서 우리가 관측한 데이터들을 표본집단이라한다.
그리고 그 표본집단으로 모집단을 추리하는것이 바로 이 책의 핵심
다음으론 가설검증과 신뢰구간
둘이 비슷한거임 먼저 현실세계의 대부분의 모집단은 정규분포한다!
정규분포가 뭐냐면
바로 이거다
이 정규분포의 특징은 위에서 말했듯이 현실세계의 대부분은 모집단은 정규분포한다는 것이고.
평균-2*표준편차 ~ 평균+2*표준편차 사이에 데이터의 95%분포한다는 거다! (실제론 2배가 아니라 1.96)
이 때 평균이0이고 표준편차가1인 정규분포를 표준정규분포라 하고 수식은 아래와 같다.
이 수식을 유도하는 것도 있는데 이러한 세세한 증명 부분은 이책에선 다루지 않는다 이책은 정말 이런게 있다! 만 알려주는 정도
그리고 실제로 이런 통계관련해서 증명하는 부분은 정말 복잡하다. 아래 나올 카이제곱분포를 포함해... (수리통계학이라 하는 듯)
무튼 저게 표준정규분포이고 표준정규분포의 각 데이터에 σ를 곱하고 μ를 더하면 표준값이 μ이고 표준편차가 σ인 일반정규분포가 된다.
이를 역이용해 관측된 데이터에서 μ를 빼고 σ로 나누면 이 데이터는 표준정규분포 안에 들게 되는데
표준 정규분포의 95%의 데이터는 -1.96 ~ 1.96 사이에 드므로 만약 데이터에서 μ를 빼고 σ로 나눴는데
위 범위밖에 들면 이 데이터는 상위 5%의 데이터이다!
좋게 말해서 상위 5%이고 결국 발생할 확률이 정말 낮은 데이터라는 뜻이므로 이 데이터는 기각해도 된다! 즉 과장해서 말해 말도 안되는 데이터이다! 라는 거다.
그리고 이러한 특성때문에 가설검정은 부정에만 강한데, 95%외에 들면 이 데이터는 기각!이라고 말할 수 있지만 95%안에 든다고 해서 이 데이터가 존재하는 데이터다! 라고 말하기에는 애매하기 때문
신뢰구간은 관측된 데이터 집단의 평균으로 위 가설검증을 진행했을 때 (모표준편차를 안다는 가정하에) 구해진 범위를 신뢰구간이라한다.
신뢰도를 95%(1.96)으로 했으면 해당 신뢰구간을 95% 신뢰구간이라 한다. 위 범위를 구했을때 100번중 95번은 모평균을 포함한다.
굳이 이렇게 귀찮게 말하는 이유는(100번중 95개) 모평균은 이미 정해진 값이지만 모르는 값이라 확률이란 단어를 붙이면 안된다나 뭐라나..
그리고 책에서 모평균만을 알때 표준편차구하기, 모표준편차만을 알때 모평균구하기, 다 모를때 모평균, 모표준편차 구하기를 하는데
위에가 모표준편차만을 알때 모평균 구하기를 한것이다. 그리고 모평균만을 알때 표준편차 구하기는 반대로하면 될거고..
둘다 모를때 모평균과 모표준편차 추리하기
모표준편차 추리는 카이제곱분포
모평균은 t분포를 사용한다.
모표준편차는 관측된 (데이터 - 관측된 데이터들의 평균의 평균) / 관측한 데이터 수 - 1 가 (관측한 데이터 수)의 자유도의 카이제곱 분포를 그리는 걸 이용한 거고
t분포는 아래 수식의 모평균과 모표준편차에 각각 표본평균과 표본표준편차를 넣어주면 된다.
둘다 핵심아이디어는 같다. 그리고 이것이 내가 생각하는 책에서 하고싶은 말이다.
사실 책에서 하고 싶은 말이라기보단 내가 생각하는 현재의 통계...인지도 사실 잘 모른다. 카이제곱분포와 t분포가 통계의 전부는 아닐테니
무튼 핵심아이디어는 아래와 같다
어떤 그래프가있다.
해당 그래프의 상대도수를 구할 수 있다.
해당 그래프의 수식에 값들을 채워넣고 우리가 원하는 모수만 모른채로 남겨둘 수 있게한다.
해당 그래프의 95% 상대도수의 임계치 사이에 모수로 나타내지는 값이 들어가면 그 값은 기각할만한 터무니 없는 값이 아니다.
책에서 나온 수식이나 통계모델에 대한 증명들은 책에서 설명해주지 않는다.
책과 관련 영상들을 유튜브를 병행해서 같이 봤는데 위에서도 말했듯이 이들을 증명하는 것은 정말 엄격한 과정을 통해 진행됐고 어렵다.
책에서 말하듯이 수학자들이 구해낸 모델들에 대해 수학자들을 믿고 그대로 사용하는 것도 후대인 우리가 가져야할 마음가짐이라 할 수 있다.(사실 하나하나 다 증명하기엔 필요선수지식도 너무 많고 시간도 오래걸린다.)