상세 컨텐츠

본문 제목

[책리뷰] 숫자에 약한 사람들을 위한 통계학 수업(2020)/ The Art of Statistics

콘텐츠 리뷰/영화, 책, 전시

by Bloomburger 2020. 11. 15. 16:37

본문

[책리뷰] 숫자에 약한 사람들을 위한 통계학 수업(2020)/ The Art of Statistics, 데이비드 스피겔할터

bayesian
Bayesian inference

 

한줄평: 도대체 왜 한국판 제목을 저렇게 했는지 이해가 안되는 책

 

한국판 제목이 굉장히 잘못되었다. 이 책에 수식이 거의 등장하지 않는 것은 사실이지만 통계학은 학문에 쓰이는 수학이 어려워서 접근하기 어려운 분야가 아니다. 통계학은 불확실한 사회적 현상을 다루고 예측하는 학문이라는 고유한 특성 때문에 어려운 것이다. 그리고 작가도 이를 말하고 싶었던 것 같다. "숫자에 약한 사람들을 위한"이라는 쓸데없는 수식어가 이 책이 마치 수학을 최대한 배제하고 쉽게 쓴 책이라는 오해를 유발하는데, 사실 이 책은 통계학을 기초적이라도 공부해보고 그 과정에서 고민을 해 본 사람이 아니라면 쉽게 깊이를 느끼기 어려운 책이다. 

대체 확률이란 무엇인가? 
: 중고등학교 교과과정에서 공식으로 처음 접하게 되는 확률에 대해서 도대체 그게 무슨 의미인지, 그 정의에 대해서 학자들간에 합의가 완벽하게 이루어지지 않았다는 사실을 들었을 때 꽤 놀라웠다.

이 책에서는 확률을 규정하는 다양한 아이디어를 소개하는데, 그 중 가장 친숙한 것이 고전적 확률이다. 흔히 학교 수업시간에 우리가 확률을 처음 접할 때, 동전, 주사위 등의 예로 설명되는 이 개념은 '결과들이 모두 똑같이 가능할 때, 특정 사건을 지지하는 결과의 수를 가능한 모든 결과의 수로 나눈 비'라고 정의된다. 즉 보통 확률은 "무작위성"과 동의어처럼 느껴진다.

언뜻 이와 다른 의미의 확률이 필요한가? 싶지만, 우리가 실제 생활에서 불확실성과 확률을 생각하는 예를 생각해보면 고전적 확률의 정의만으로는 부족하다는 생각이 들 것이다. 예컨대 기상예보, 여론조사와 같이 무작위적 메커니즘이 사용되지 않거나 심지어 무작위성이 없는 경우에도 확률은 유용하다. 이는 확률이 객관적으로 존재하는 것인가 아니면 인식론적 불확실성에 기반한 주관적인 개념인가 하는 논쟁으로도 이어진다.

 

기승전결이 훌륭하다. 데이터를 요약하는 가장 기초적인 방법론부터 시작해서 통계학의 기본 틀이라고 할 수 있는 회귀모형과 가설검정으로 넘어간 후 베이지안 방법론(저자가 베이지안이다)을 이야기한 후 통계학자들이 지켜야할 연구윤리까지 광범위한 주제를 다루고 있으며 주제 하나하나에 깊이가 있다. 중간중간 실제로 연구되었던 가설들을 활용하여 풍부한 예를 제공하고 있어 실제 통계학자가 연구를 설계하고 분석하면서 고민하는 과정을 단계별로 심도있게 따라가는 경험을 할 수 있다. 

 

연구윤리에 대한 부분이 인상적이다. 통계분석을 하는 연구자의 자세에 대해서 큰 가르침을 준다. 데이터를 다루는 직업을 가진 사람이라면 데이터 분석이라는 것이 코에 걸면 코걸이 귀에 걸면 귀걸이라는 생각을 무!조!건! 해보았을 것이다. 데이터를 수집하는 과정에서부터, 이를 적절하게 처리하고, 모형을 선택해서 분석하고, 해석을 하는 전과정에서 언제든지, 얼마든지 조작이 일어날 수 있다. 결과를 정해놓고 데이터를 끼워맞추는 일은 정말 비일비재하게 일어난다. 그러나 불확실함을 싫어하는 인간에게 통계학은 절대 버릴 수 없는 도구일 것이다. 학계, 결과를 활용하는 미디어, 일반국민 등 모두, 끼워맞추기 식의 연구와 자의적인 해석을 경계하여 통계적 도구가 올바르게 활용될 수 있도록 관심을 지속적으로 가져야 한다.

연구 부적절 행위는 얼마나 자주 발생하는가? (2012년 미국 심리학자 2155명을 대상으로 한 설문조사 결과)
- 35%는 기대하지 않았던 결과를 처음부터 예측했던 것으로서 발표했다.
- 58%는 결과들이 유의미한지를 따져본 이후에 계속해서 더 많은 데이터를 수집했다.
- 67%는 연구의 모든 결과들을 발표하지 않았다.
- 94%는 연구 부적절 행위 중 적어도 하나를 한 적이 있다고 시인했다. 

 


효과적인 통계학 실행을 위한 열줄요약(발췌)

1. 통계적 방법은 데이터가 과학적 질문에 답하게 해야 한다. 특정 기법에 초점을 두기보다 왜 이것을 하는지를 질문하자.

2. 신호는 항상 잡음과 함께 나타난다. 그 두 가지를 구분하려는 노력이 통계학을 흥미롭게 만든다.

3. 미리 계획하라. 연구자의 자유도를 피하게 위해 사전 설명서를 사용하라.

4. 데이터의 질에 신경 써라. 모든 것은 데이터에 달려 있다.

5. 통계 분석은 계산 그 이상이다. 이유를 알지 못한 채, 그저 데이터를 공식에 집어넣거나 소프트웨어를 실행하는 건 바람직하지 않다.

6. 단순함을 유지하라. 괜히 복잡한 모형화로 기량을 뽐내지 말자.

7. 오차범위 등 변동성 평가를 제공하라.

8. 가정을 점검하라.

9. 가능하다면, 재현하라!

10. 분석이 재생산될 수 있게 만들어라. 다른 사람들이 당신의 데이터와 코드를 얻을 수 있어야 한다.

 

숫자에 약한 사람들을 위한 통계학 수업 - 10점
데이비드 스피겔할터 지음, 권혜승 외 옮김/웅진지식하우스

관련글 더보기

댓글 영역