책 속에서

차세대 킨제이는 분명 데이터 과학자일 것이다

조조다음 2022. 1. 13. 06:30

인간 본성을 연구하는 과학자들은 표본이 아무리 작아도 그 표본이 전체 인구의 특성을 반영할 수 있다고 생각하는 오류인 작은 수의 법칙에 시달린다.  - 9쪽

 

디지털 데이터는 중요한 심지어는 혁명적인 식견을 제공해 주는 우리 시대의 현미경이나 망원경일지도 모른다. 거기에는 많은 정보가 있으나 문제는 바늘이 점점 커지는 건초더미 속에 파묻혀 있다는 것이다.  - 30쪽

 

밤하늘 아무곳에나 망원경을 향해 놓고 명왕성을 발견할 수 없다.  - 36쪽

 

어린 시절 울기만 하면 엄마의 주의를 끌 수 있다는 것을 알아차리는 것도 데이터 과학이다.  - 43쪽

 

실수와 금지된 것 사이의 연관성을 찾을 필요는 없다.  - 68쪽

 

빅데이터의 힘 ① 새로운 유형의 데이터 제공 ② 솔직한 데이터 ③ 작은 집단도 클로즈업해서 볼 수 있다 ④ 인과적 실험의 실행 가능성  - 72쪽~73쪽

 

이전에 다른 사람들이 보지 않았던 데이터를 찾아 비전형적 데이터소스를 고려하는 신선하고 독창적인 시각은 데이터 과학자들에게 성과로 돌아올 수 있다.  - 95쪽

 

남북전쟁이 끝나고 15년 후에도 The UNITED STATES are가 ~~is보다 많이 사용되어 국가가 언어학적으로 여전히 분열되어 있었음을 보여주었다. 사고방식의 변화는 군사적 승리보다 느렸다.  - 100쪽

 

신문독자층은 평균적으로 약간 좌편향이다. 신문이 좌익의 견해를 지지하도록 대중을 움직이려 한다는 의심에 거대한 음모 따위는 없다. 그저 자본주의가 존재할 뿐.  - 120쪽

 

수퍼마켓의 꽉 찬 쓰레기통과 대기줄 사진, 사과의 잘 익은 정도, 우주에서 찍은 사진 모든 것이 데이터다. 전통적 관점에 억매여서는 안된다. 모든 새로운 데이터로 사람들의 거짓말을 꿰뚫어 볼 수 있다.  - 127쪽

 

스스로에게 거짓말을 하는 경향이 많은 사람들은 자신이 평균 이상이라고 말한다. 인터뷰 때도 낯선 사람에게 좋은 인상을 주고 싶어하는 강한 욕구때문에 설조사에서도 그런 거짓말을 한다.  - 131쪽

 

우리에게는 우리가 이 땅에 발을 들이게 한 사람들에 대한 종교적인 시험을 거부해야 할 책임이 있습니다(오바마)  - 155쪽

 

인터넷은 자유주의자와 보수주의자를 완벽하게 섞어 전혀 분리되지 않을 것이다.  - 168쪽

 

경기 대침체 기간에 아동학대가 급증하지 않았다는 것은 믿을만 한가? 신고 감소는 아동학대 신고이지 학대 자체가 아니라고 가정해 보면 믿기 어려운 면이 있다.  - 172쪽

 

사람들은 화가 나고 불쾌하다며 어떤 것을 매도하면서도 여전히 클릭한다.  - 183쪽

 

부자도 죽음을 피할 수 없지만 이들은 지역에 관계없이 평균수명을 누린다. 가난한 사람은 사는 지역에 따라 수명에 영향을 받는다.  - 205쪽

 

아이디어는 때로는 매우 느리게 때로는 바이러스처럼 기하급수적으로 퍼진다. 사람들은 유인에 대해서 예기치 못한 방식으로 대응한다.  - 226쪽

 

도플갱어 검색은 인터넷 기업들의 자사상품들과 사용자 경험을 극적으로 발전시키는 데 이용된다(도서추천 등) - 233쪽

 

도플갱어 검색은 많은 사례가 포함되어 있어야만 좋은 결과를 얻는다. 문제는 데이터 수집에 있다.  - 234쪽~235쪽

 

데이터는 너무도 크고 풍성해서 아주 가까이 확대해도 어떤 특정한 대표성이 없는 인간에 국한되지 않으면서 생각을 환기한 복합적인 이야기를 전할 수 있다.  - 237쪽

 

인간이 만드는 가설은 즐거움을 줄 수도 스스로를 고문할 수도 있다.  - 267쪽

 

커트라인 바로 위나 아래 점수를 기록한 학생들이 재능이나 추진력에 있어서 큰 차이가 있으리라고 생각할 이유는 별로 없다.  = 269쪽

 

사람들은 스스로가 더 낫게 보이려고 스스로 거짓말을 한다, 하지만 세상 역시 오해의 소지가 있는 불완전한 데이터를 제시하는 방법으로 우리에게 거짓말을 한다.  - 274쪽

 

차원의 저주는 빅데이터에서 중요한 문제다. 새로운 데이터 세트는 대체로 종래의 데이터 소스에 비해 기하급수적으로 많은 변수를 제공하기 때문이다.  - 284쪽

 

차원의 저주를 극복하려면 자신의 연구에 대해 겸손해야 하고 자신이 찾아낸 결과와 사랑에 빠지지 말아야 한다.  - 287쪽

 

우리가 측정할 수 있는 것은 종종 우리가 관심을 갖고 마음을 쓰는 것과 일치하지 않는다.  - 291쪽

 

빅데이터는 인간이 세상을 이해하기 위해 수천년 동안 개발해온 다른 모든 방법의 필요성을 없애지는 않는다. 그들은 서로를 보완한다.  - 294쪽

 

데이터 분석의 미래는 밝다. 차세대 킨제이는 분명 데이터 과학자일 것이다. 차세대 주코, 차세대 마르크스, 차세대 소크는 데이터 과학자일 것이다.  - 321쪽

 

훌륭한 결론은 모순적이어야 하고 마음을 움직이고 심오하고 장난기가 있고 깊이와 유머, 슬픔을 안고 있어야 한다.  - 321쪽

 

모두 거짓말을 하고 있다, 세스 스티븐스/다비도 위츠, 이영재 옮김