끄적끄적 17: FACTFULNESS 본문
데이터 분야의 권장 도서 목록에 거의 필수 도서 수준으로 자주 언급되어 읽어본 팩트풀니스. 읽으면 읽을수록 왜 그렇게 자주 언급되었는지 이해가 갔다. 데이터 다루는 테크닉이 아니라 데이터 자체에 대한 접근 방법을 정립해주는 책이라 할 수 있겠다.
데이터를 다룬다면 반드시 읽어봐야 할 책 FACTFULNESS (1/2)
팩트풀니스
1. 세계에 대한 13가지 질문
팩트풀니스라는 책은 책 자체로도 굉장히 잘 구성되어 있다. 아무래도 저자가 강연을 굉장히 많이 해와서 그런지 사람의 관심을 잡아 끄는 법을 이미 터득한 듯 하다. 책의 제일 앞에 등장하는 세계의 여러가지 현상들에 대한 13가지 질문에 스스로 답해보고 나면 이 책을 끝까지 읽어봐야 겠다는 생각을 하게 만든다. 사실 이 질문만 풀고 나면 이미 머리가 살짝 띵한 것을 느낄 수 있다. 그래도 나는 데이터를 다루는 사람이라 세상을 통계적으로 조금은 이해하고 있다고 생각했는데 완전 아니었다는 것을 직시하게 해주기 때문이다.
아래는 그 질문들이다.
- 오늘날 세계 모든 저소득 국가에서 초등학교를 나온 여성은 얼마나 될까?
- A: 20%
- B: 40%
- C: 60% - 세계 인구의 다수는 어디에 살까?
- A: 저소득 국가
- B: 중간 소득 국가
- C: 고소득 국가 - 지난 20년간 세계 인구에서 극빈층 비율은 어떻게 바뀌었을까?
- A: 거의 2배로 늘었다.
- B: 거의 같다.
- C: 거의 절반으로 줄었다. - 오늘날 세계 기대 수명은 몇 세일까?
- A: 50세
- B: 60세
- C: 70세 - 오늘날 세계 인구 중 0~15세 아동은 20억이다. 유엔이 예상하는 2100년의 이 수치는 몇일까?
- A: 40억
- B: 30억
- C: 20억 - 유엔은 2100년까지 세계 인구가 40억 늘어날 것으로 예상한다. 주로 어떤 인구층이 늘어날까?
- A: 아동 인구(15세 미만)
- B: 성인 인구(15~74세)
- C: 노인 인구(75세 이상) - 지난 100년간 연간 자연재해 사망자 수는 어떻게 변했을까?
- A: 2배 이상 늘었다.
- B: 거의 같다.
- C: 절반 이하로 줄었다. - 오늘날 세계 인구는 약 70억이다. 아래 지도 중 이 70억의 거주 분포를 가장 잘 나타낸 것은?
- A: 아시아 40억, 유럽 10억, 아프리카 10억, 남북미 10억
- B: 아시아 30억, 유럽 10억, 아프리카 20억, 남북미 10억
- C: 아시아 30억, 유립 10억, 아프리카 10억, 남북미 20억 - 오늘날 전 세계 1세 아동 중 어떤 질병이든 예방접종을 받은 비율은 몇 퍼센트일까?
- A: 20%
- B: 50%
- C: 80% - 전 세계 30세 남성은 평균 10년간 학교를 다닌다. 같은 나이의 여성은 평균 몇 년간 학교를 다닐까?
- A: 9년
- B: 6년
- C: 3년 - 1996년 호랑이, 대왕판다, 검은코뿔소가 모두 멸종위기종에 등록되었다. 이 셋 중 몇 종이 오늘날 더 위급한 단계의 멸종위기종이 되었을까?
- A: 2종
- B: 1종
- C: 없다 - 세계 인구 중 어떤 식으로든 전기를 공급받는 비율은 몇 퍼센트 일까?
- A: 20%
- B: 50%
- C: 80% - 세계 기후 전문가들은 앞으로 100년 동안의 평균기온 변화를 어떻게 예상할까?
- A: 더 더워질 거라고 예상한다.
- B: 그대로일 거라고 예상한다.
- C: 더 추워질 거라고 예상한다.
정답(하얀색): 1:C, 2:B, 3:C, 4:C, 5:C, 6:B, 7:C, 8:A, 9:C, 10:A, 11:C, 12:C, 13:A
심심풀이 삼아 한 번 풀어보았다면 이 책을 읽어보고 싶어지지 않았는가? 생각보다 우리는 편향적인 사고를 하고 있는지도 모른다.
2. 책을 읽으며 밑줄 친 부분들 정리
'전 세계 인구 중 몇 퍼센트가 저소득 국가에 살까?
그러자 다수가 50% 이상이라고 대답했고, 그 추정치 평균은 59%였다.
정답은 9%다. 전 세계에서 겨우 9%가 저소득 국가에 산다.
책을 읽다가 굉장히 놀란 파트였다. 50%까지라고는 생각 안했지만 그래도 한 20~25%는 될꺼라고 생각했는데 9%라니... 기부는 꾸준히 했으면서도 사실 관심은 하나도 없었다는 것을 질문 하나로 반증해주는 느낌이었다. 세계적으로 많은 후원과 지원으로 저소득국가로 하여금 발전할 수 있게 하고 있다는 것은 알고 있었지만 이렇게까지 달라졌을 것이라고는 생각조차 못하고 있었다.
평균 비교를 조심하라: 분산을 살펴본다면 겹치는 부분을 발견할 것이다. 그러면 둘 사이의 간극 따위는 없다는 것을 알 수 있다.
현상을 데이터로 볼 때 정말 자주 사용하는 것이 이 '평균'이다. 일단 무슨 데이터를 만나건 mean을 이용하여 평균이라는 숫자를 보고는 한다. 이렇게 본 평균은 어떤 집단이나 데이터군을 판단할때 굉장히 중요한 수치이기는 하지만 분산이나 카테고리를 제대로 구분하지 않은 상태에서 평균만을 집중하여 본다면 이는 도리어 대상에 대한 잘못된 편견을 만들어주는 수치로 사용될 뿐이다.
극단 비교를 조심하라: 국가로 보나, 사람으로 보나 어느 집단이든 상위 계층과 하위 계층이 어느 정도는 있게 마련이다. 아울러 그 차이가 심각하게 불공평할 때도 더러 있다. 그러나 그런 경우라도 사람들이 흔히 간극이 존재하려니 생각하는 중간층에 사실은 다수의 사람이 존재한다.
어떤 데이터를 설명할 때 min과 max등 양 극단의 수치를 비교하는 것이 기본이기는 하다. 하지만 그 데이터의 전체적인 경향은 min과 max로는 전혀 설명되지 않는다. 양 극단의 수치가 아무리 높거나 낮아도 그 데이터 전체가 가지는 가장 중점적이고 특징적인 값은 대체로 중간쯤에서 추출해 낼 수 있기 때문이다.
위에서 내려다보는 시각: 위에서 내려다보면 시야가 왜곡된다는 점을 명심하라. 모든 게 다 똑같이 작게 보이지만, 사실은 그렇지 않다.
데이터를 다룬다는 것은 엄청나게 많은 현상들을 정보로 정리하여 위에서 내려다보는 것과 비슷하다. 거시적으로 바라보게 되고 데이터량이 클수록 작은 것에는 집중하지 않고 통계적인 스킬로 접근하게 된다. 하지만 데이터를 위에서 바라만 본다면 그 안에 숨겨진 실체를 제대로 분석하지 못한다. 편리한 통계에 의존하는 것이 아니라 다각화된 시야로 바라보아야 그 실제를 온전하게 이해할 수 있다.
나아지지만 나쁘다: 현 수준(예: 나쁘다)과 변화의 방향(예: 좋아진다)을 구별하는 연습을 하라. 상황은 나아지는 동시에 나쁠 수도 있다는 확신을 가져라
데이터는 정지되어 있지 않고 시간의 연속성에 따라 변화한다. 그렇기에 현상을 멈춰있는 데이터로만 생각한다면 그것의 변화도를 전혀 고려하지 못하는 분석일 뿐이다. 1시간짜리 영상에서 첫 장면만 가지고 모든 것을 알수는 없지 않은가?
좋은 소식은 뉴스가 안된다: 좋은 소식은 거의 보도하지 않는다. 그래서 뉴스는 거의 항상 나쁜 소식이다. 나쁜 소식을 볼 때면, 같은 정도의 긍정적 소식이었다면 뉴스에 나왔을지 생각해보라
뉴스는 자극적이다. 왜냐하면 뉴스도 조회수로 먹고사는 매체이기 때문이다. 그렇기에 사실 뉴스는 굉장하게 편향되어 있기 마련이다. 아무리 대형 방송사의 헤드라인이라 할 지라도 그 안에 감춰진 의도와 생각을 비판할 수 있는 시선을 가지자.
무서운 세계: 공포 대 현실 - 세계는 실제보다 더 무서워 보인다. 우리는 주목 필터나 언론에 걸러진 무서운 것을 보고 듣기 때문이다.
테러, 묻지마 살인, 독극물 소포, 방화, 납치 등 이름만으로도 무시무시한 이 모든 사건들로 죽은 사람보다 자살한 사람이 압도적으로 많다. 무서운 것은 그 무서움 때문에 항상 더 부풀려져서 다가오기 마련이다. 감정적으로는 어쩔 수 없다 할지라도 데이터로 바라볼 때는 단순히 1개의 사건으로 바라보자.
비율을 왜곡하지 않으려면 두 가지 마술 도구만 있으면 된다. 비교와 나누기다.
비교와 나누기는 정말 정말 정말 소중한 마술 도구이다.
sum(비트코인 대박친 금액)을 한다면 말도 안되게 높은 수치를 볼 수 있겠지만,
sum(비트코인 대박친 금액)/count(비트코인에 뛰어든 사람 수)를 한다면 정말 미미하기 그지 없는 수치를 볼 수 있을 것이다.
3. 느낀점
개인이 살아가면서 접하게 되는 정보들은 실제 세상에서 생산되는 정보량에 비하면 터무니 없이 적다. 내가 아는 것들은 편향되지 않는 것이 절대적으로 불가능한 수준의 형편 없는 샘플량이란 것이다. 개인 자체가 굉장하게 imbalance(불균형)한 데이터라는 것이다. 그러한 데이터는 일단 불균형도를 맞추고 왜 그런 현상이 일어났는지를 파악하는 것이 급선무다. 이미 불균형한 데이터로는 어떤 결론도 올바르게 내릴 수 없기 때문이다.
추천 알고리즘과 수많은 마케팅들로 인해 우리는 확증 편향을 강요 받는 시대에 살아가고 있다. 내 피드에는 내가 관심있고 맞다고 생각하는 것들로만 가득하기에 스스로가 어디부터 잘못 되었는지조차 인지할 수 없는 경우가 많다. 우리 스스로의 편향을 인정하고 조금이나마 벗어나려고 노력하자. 뉴스보기, 독서하기, 신문 읽기, 모르는 분야 도전하기 등 무엇이든 좋으니 스스로를 정보의 우물 안에 가두지 말고 뛰쳐 나가자.
마치며. 사실 독서를 할 때 종이책을 선호하지만 몇 가지 책은 변화를 줘보기 위해 리디북스의 전자책으로 구매하여 읽어보고 있다. 전자책으로 읽게 될 때의 좋은 점으로는 휴대의 편리성이 가장 크지만, 메모나 형광팬으로 기억하고 싶은 부분들을 체크해 놓으면 책을 읽음과 동시에 요약본을 만들 수 있다는 또 한가지 장점이 있다.
추천글
이 책과 함께 읽고 있는 데이터에 관련된 도서 목록
- 원인과 결과의 경제학
- 데이터 문해력
- 변화하는 세계 질서
'독서' 카테고리의 다른 글
끄적끄적 18: 쇼펜하우어 문장론 (4) | 2023.08.27 |
---|---|
끄적끄적 16: 픽 미 업 (0) | 2022.11.27 |
끄적끄적 15: 시 읽기 (0) | 2022.08.15 |
끄적끄적 14: 인간관계론 2번째 (0) | 2022.07.03 |
끄적끄적13: 유시민의 글쓰기특강(1~4챕터) (0) | 2022.06.26 |