김선태의 경제신간 리뷰

[이코노뉴스=김선태 편집위원] 경제활동인구에서 실업자가 차지하는 비율을 나타내는 실업률은 노동시장의 상황과 경기 흐름을 파악하는데 매우 중요한 지표다.

▲ 김선태 편집위원

미국에서 금융기관의 정책 결정에 주요 근거로 활용되는 월간 실업률은 지난날에는 전화설문을 통해 이를 집계한 관계로 조사기간이 3주일이나 걸렸다. 조사기간을 줄이기 위해 오바마 행정부는 대통령 경제자문위원회 의장 앨런 크루거에게 이 수치를 단축시키라는 특명까지 내렸지만 결과는 신통치 않았다.

빅데이터의 통계학적 가치 : 상관관계의 발견

이 문제에 전 구글 엔지니어인 제러미 긴즈버그가 매달렸는데 그는 구글 빅데이터에서 높은 상관관계를 지닌 유사 데이터를 찾았다. 예를 들어 미국 질병통제예방센터가 독감 데이터를 발표하는 데에는 일주일이 걸리는데, 그 대신 사람들이 구글 검색창에 감기 관련 증상을 검색하는 빈도를 파악하면 독감 발병률을 상당히 정확하게 측정할 수 있다는 사실을 알아냈다.

이 책 『모두 거짓말을 한다』의 저자인 세스 스티븐스 다비도위치는 같은 방식으로 실업률과 높은 상관관계를 보이는 지표를 찾아냈는데 다름 아닌 유명한 포르노 사이트 또는 ‘스파이더 솔리테어(혼자서 하는 카드게임)’ 검색 빈도였다. ‘당장 시간이 남아도는 사람들이 돈 없이 할 수 있는 일’에 착안한 것이다.

저자는 ‘구글 트렌드’(구글 검색어를 이용한 빅데이터 분석 서비스. 이 글에서는 구글 빅데이터와 동일시해 사용한다)를 이용해 집계 기간이 긴 기존 통계 분석을 대체할 유사 모델을 만들어낼 수 있다고 믿어 다양한 주제에 대해 탐구해 갔다. 그 결과 저자는 사회적 통념이나 언론 기관의 여론조사와 상반되는 결론이 구글 빅데이터에서 비일비재하게 나타난다는 데 충격을 받았다.

이를테면 우리가 슬픔을 잊기 위해 농담을 한다는 사회적 통념은 옳을까. 그렇다면 사람들은 광란의 테러 공격 뒤에 엄청난 불안감이 퍼질 것이라고 추정할 수 있다. 이를 확인하고자 저자는 불안감을 반영하는 구글 검색 자료를 살폈다. 2004년부터 유럽과 미국에 대규모 테러 공격이 일어난 이후 관련 검색이 얼마나 이뤄졌는지 관찰했다. 불안감과 관련된 검색이 얼마나 늘어났을까. 답은 평균적으로 전혀 늘어나지 않았다는 것이다. 많은 사상가들이 유머를 고통의 배출 장치라 주장했고 좌절과 실망에 대처하는 방법으로 생각했으며 찰리 채플린은 이를 압축하여 “웃음은 강장제이고, 안정제이며, 진통제이다”라고 말했다.

구글 빅데이터는 이런 주장을 무색하게 만든다. 검색어 통계에 따르면 농담을 키워드로 하는 검색 빈도는 사람들의 기분이 가장 좋이 않다고 주장하는 월요일에 가장 낮고, 흐리거나 비오는 날에도 낮다. 폭탄이 터진 보스턴 마라톤이나 유사한 테러 사건 직후에 농담 검색률은 오히려 떨어졌다. 확정할 수 없겠지만 저자는 “사람들은 인생이 잘 풀리지 않을 때보다 일이 잘 풀릴 때 더 자주 농담을 찾는다.”(33쪽)고 말한다.

구글의 위력을 보여 준 트럼프 당선 예측

이쯤에서 구글에 관해 잠시 살펴보자. 1998년 당시 다양한 검색엔진이 각축을 벌이고 있었는데 구글은 등장과 함께 앞선 경쟁자들을 단숨에 따라잡았다. 결정적인 차이는 검색 대상에 있었다. 당시 대부분의 검색엔진들은 키워드를 입력하면 해당 단어가 들어간 웹 페이지를, 단어의 빈도수에 비례해 보여줬다. 문제는 이를 악용해 웹페이지에 수많은 단어를 숨겨놓는 경우가 점점 늘어났다는 점이다. 이 때문에 빌 클린턴을 검색하면 듣도 보도 못한 사이트가 백악관을 밀어내는 일이 흔히 일어났다.

▲ 『모두 거짓말을 한다 : 구글 트렌드로 밝혀낸 충격적인 인간의 욕망』 = 세스 스티븐스 다비도위치 저. 이영래 역. 더퀘스트. 2018년 06월 17일 출간

구글은 발상을 바꾸어 특정 검색어를 입력한 사람들이 보고자 하는 웹 사이트를 추적했다. 빌 클린턴 대통령 재직 당시 그에 관한 공식 사이트는 백악관이므로 그를 언급한 뉴욕타임스 기사에는 백악관 공식 웹사이트의 링크가 걸릴 확률이 높다. 이런 방식으로 구글에서 빌 클린턴과 백악관 공식 웹사이트는 가장 높은 상관관계로 연결된다.

“요점은 구글이 검색 분야에서 지배적인 위치에 오를 수 있었던 이유가 단순히 경쟁지들보다 많은 데이터를 수집했기 때문이 아니라는 점이다. 그들은 더 나은 유형의 데이터를 찾음으로써 검색 분야의 지배자가 됐다.”(81쪽)

구글은 인터넷 검색엔진을 독점해 버린 탓에 오늘날 거의 모든 미국인들은 일상의 대소사에 관해 검색하고자 할 때 구글을 찾으며, 거꾸로 대부분의 미국인들이 구글에 자신의 의문을 털어놓게 되었다.

기존 여론조사 기관의 예측을 넘어서는 구글의 예측 능력이 여기에서 비롯한다. 일상적인 여론조사에서 많은 사람들이 거짓 대답을 하는데 이를 즉시 알아낼 방법이 없다. 한 여론조사 기관이 메릴랜드 대학교 졸업생들에게 대학 경험에 관해 다양한 질문을 한 뒤 얻은 답변을 공식 기록과 비교했는데 결과는 놀라웠다. 자신이 평점 2.5 이하로 졸업했다고 말한 사람은 2퍼센트가 되지 않았지만 실제로는 약 11퍼센트였다. 답변자의 44퍼센트가 지난해 대학에 기부했다고 말했지만 실제 기부자는 28퍼센트에 불과했다.

미국 주요 여론조사 기관이 도널드 트럼프 미 대통령의 승리를 예측하지 못한 것도 마찬가지로 답변자들이 조사관을 속인 탓일 가능성이 크다. 이들 기관이 벌인 익명의 설문조사에서조차 트럼프 지지율은 실제 결과에 비해 2퍼센트 과소평가되었다. 이를 두고 미시간대학교 로저 투랑조 명예교수는 ‘우리가 선의의 거짓말을 좋아하는 것이 문제의 핵심’이라며 다음과 같이 설명했다. “사람들은 평생 세 번에 한 번 꼴로 거짓말을 합니다. 그 버릇이 설문조사에서도 나오는 것입니다.”(130쪽)

물론 설문조사에서 사람들이 거짓말을 하는 이유 중 하나로 상대방에게, 비록 그가 목소리만으로 만난 낯선 사람이라 할지라도, 단지 좋은 인상을 주고 싶어 하는 강한 욕구를 들 수 있다.

“유인이 구글을 진실의 고해실로 만들어”

가장 민감한 이유는 투랑조 교수의 말을 빌면 “사람들에게는 설문조사에서 진실을 말할 유인(Incentive)이 없기 때문”이다. 대체 불가능한 검색엔진이며, 익명을 보장하는 온라인 사이트이자, 그 누구도 드러내 놓고 개인의 검색 활동을 감시하지 않는 곳, 바로 그곳이 구글 검색창이이다. 여기서 사람들은 다른 곳이라면 인정하지 않을 것을 인정하며 심지어 자신의 내면적인 문제를 스스로 털어놓기까지 한다. 그렇게 해서 구글은 진실의 고해실이 되며 구글 빅데이터는 ‘디지털 자백약’이 된다.

이를 뒷받침할 사례는 너무 많다. 가령 인종차별적인 농담을 즐기는 사람이 있다고 가정하자. 그 사람이 자신의 성향을 설문조사에 털어놓을 가능성은 거의 없다. 구글 검색창이라면 사정이 달라진다. 우울증에 빠진 사람이라고 해도 마찬가지고, 가학 취미를 가진 사람이라면 더더욱 그럴 것이다. 게다가 직접 살인에 관해 말하는 경우는 없지만 구글에서는 살인에 관해 다양한 정보를 수집할 수 있다.

더 나아가 사회적으로 억압된 관념인 경우 사람들은 자기 자신에게조차 거짓말을 하는 경향이 있는데, 구글은 이 때에도 진실을 추적할 수 있는 유력한 빅데이터를 제공한다. 예컨대 미국인을 대상으로 한 설문조사에서 남성 25퍼센트와 여성 8퍼센트만이 포르노를 본 경험이 있다고 답했다. 그런데 실제 구글에서 미국인들은 ‘날씨’보다 ‘포르노’를 더 많이 검색하는 것으로 나타났다.

자신을 속이는 거짓말의 다른 경우가 고정관념이다. 스스로는 확고한 신념으로 무장하고 있으면서도 그 신념이 사회적으로 증오와 편견의 대상이 될 수 있다고 생각할 때, 우리는 종종 진실과 반대되는 쪽으로 말한다. 대신 구글에서는 자신의 생각을 가감없이 털어놓는다.

이런 이유로 구글 검색창에 입력하는 질문이나 키워드를 통해 우리는 미국인들이 지닌 고정관념을 비교적 정확하게 파악할 수 있다. 저자는 빅데이터 분석을 통해 특정 인종에 대해 미국인들이 지닌 대표적인 고정관념을 이렇게 짝짓는다. ‘아프리카계 미국인 – 무례함’, ‘유대인 – 사악함’, ‘이슬람교도 – 테러리스트’, ‘아시아인 – 못생김’, ‘게이 – 멍청함’.

이런 고정관념은 잘못된 통계적 결과를 낳기 쉬운데 그 결과는 실제 정부 정책에도 영향을 미칠 수 있다. 종종 비극적인 사례도 있는데 “경기가 침체하면 아동학대가 감소한다”는 통계적 결과가 그중 하나다.

2007년 말 미국 경기가 침체 조짐을 보이자 많은 전문가들이 아동학대의 증가를 걱정했고 이에 설문조사가 실시되었다. 그런데 경기 침체에도 불구하고 아동학대 사건이 줄고 있다는 아동보호서비스 기관의 공식 조사 결과가 나오면서 이런 걱정은 근거가 없는 것처럼 보였다.

이 사실을 믿기 어려웠던 저자는 구글 데이터를 조사했다. 그러자 아이들이 검색창에 입력한 문구들이 저자의 가슴을 후벼 팠다. “엄마가 나를 때려요.” “아빠가 나를 때려요.” 이러한 검색이 줄을 이었고, 아이들의 호소가 늘어나는 것과 정비례하여 실업률이 높아지고 있었다.

저자는 이렇게 결론지었다. “감소한 것은 이동학대 신고지, 아동학대 자체가 아니다. 아동학대 중 적은 사례만이 기관에 보고된 것으로 추정되며 이 기간에 아동학대를 보고하는 교사와 경찰과 아동보호서비스 담당자들이 과로 상태였거나 일자리를 잃었을 가능성이 높다.”(172쪽)

빅데이터 분석, 늘 정당화될 수 있을까

세 경제학자가 돈을 빌린 사람의 변제 가능성을 예측하는 방법을 찾기 위해 빅데이터를 이용했다. 그들이 얻는 방법 중 하나는 은행 창구를 찾은 고객이 사용하는 말이나 단어에서 단서를 얻는 것이다.

변제 가능성이 높은 사람들이 대출을 신청할 경우 사용하는 것은 이렇다. : ‘부채가 없는’, ‘세후’, ‘졸업’, ‘저금리’, ‘최소 지불’.

반면 채무 불이행 가능성이 높은 사람들이 대출을 신청하며 사용하는 단어는 이렇다. : ‘하나님’, ‘갚을’, ‘병원’, ‘약속’, ‘감사’.

상담을 맡은 은행 직원들은 이와 같은 단어를 근거로 간단하게 대출 여부를 결정할 수 있다. 이 결과가 은행의 이익을 높이는데 도움을 줄 것이라는 점은 의심할 여지가 없지만, 당연하게도 이런 의문이 든다. ‘그렇다면 정작 사정이 어려워 돈이 필요한 사람들은 어디서 돈을 구한단 말인가’ 빅데이터 분석은 이와 같이 곳곳에서 윤리적인 문제를 야기할 수 있다.

연구 주체가 정부라면 문제는 더욱 심각해진다. 영화 ‘마이너리티 리포터’를 본 독자라면 빅데이터에 근거한 정부 개입이 조지 오웰의 소설 ‘1984’와 ‘빅 브라더’의 등장으로 이어질 수 있음을 쉽게 이해할 것이다. 저자가 말하는 극단적이면서 동시에 현실적인 사례를 보자.

아드리아나 도나토는 생일파티에 나타난 전 남자친구가 화가 나 있다는 걸 알았다. 그녀는 그가 우울증으로 힘들어했다는 것을 알고 있었다. 그는 그녀에게 드라이브를 가자고 했다. 그녀는 그가 지난 3주 동안 사람을 살해하는 방법을 찾아보며 동시에 그녀에 대해 검색했다는 사실을 알지 못했다. 그날 저녁 그녀는 전 남친의 칼에 찔려 죽었다.

이제 우리는 빅데이터 분석을 허용하면 이런 범죄가 일어나기 전에 범죄 가능성이 있는 인물을 체포할 수 있다는 주장에 직면할 수 있다. 독자 여러분이라면 어떻게 대답할 것인가. 답은 저자가 말하는 사회과학과 자연과학의 명확한 구분에서 찾을 수 있을 텐데, 이 글에서는 자세히 다루지 않는다. [이코노뉴스]

저작권자 © 이코노뉴스 무단전재 및 재배포 금지