Blog

Blog

올림픽을 통해 빅 데이터를 본다.

현재 우리는 데이터 홍수의 시대에서 살아가고 있다. 스마트폰의 보급과 SNS의 폭발적인 확산으로 우리가 하루에 생산하는 데이터양은 무려 약 2.1 액사바이트(Exabyte, EB)에 이르고 있다. 우리는 매일 5천만 개 이상의 트윗과 매일 약 1억 개 이상의 페이스북 메시지를 작성하고 있다. 우리가 매일 생산하는 데이터를 바이트(bytes)로 계산하면 250경 바이트에 달한다. 이는 600 메가바이트(Megabyte, MB) 짜리 영화를 39억 개 이상 저장하는 데이터의 크기와 같다. 엄청난 양의 데이터이다. 시장조사 전문기관인 IDC에 따르면 2011년도 전 세계의 디지털 정보량의 약 1.8 제타바이트(Zettabyte, ZB)에 달할 것으로 전망되고 5년 이내에 9배까지 증가할 것으로 전망되고 있다.

2012년 다보스 세계경제포럼에서 가장 주목할 기술로 빅 데이터(Big Data)가 지목되었다. 우리가 매일 생산하는 수많은 데이터들은 그의 양과 생성주기, 형식 등이 과거에 비해 크고 형태가 다양하여 빅 데이터로 간주하며 주목 받고 있다. TDWI Research 의 2011 Big Data Analytic Report에서는 빅 데이터의 세 가지 요소인 3V를 정의하였다. 3V는 데이터의 다양성(Variety), 규모(Volume), 빠른 속도(Velocity) 이다. 세 가지 중에서 두 가지 이상을 충족시킬 수 있으면 빅 데이터 기술을 말한다고 할 수 있다.
 
올해는 빅 데이터가 주목 받는 해이기도 하지만 하계 올림픽이 열리는 해이기도 하다. 올림픽은 4년에 한 번씩 열리며 세계의 잔치이다. 올림픽에서 좋은 성과를 거둔다는 것은 국가의 위상을 높이는 일이고 직간접적인 경제 이익을 가져다 주기 때문에 참가하는 국가에서는 결과를 관심 있게 다루고 있다. 언론에서는 올림픽 예상 메달(medal) 개수와 순위를 예측하고 있고 기업들은 메달 개수를 맞추는 마케팅을 진행하는 것을 어렵지 않게 볼 수 있다.

빅 데이터와 올림픽의 메달 개수는 서로 연관이 없는 것처럼 보이지만 아주 밀접한 관계가 있다. 메달의 계수를 예측하는 것은 국민의 염원을 담아서 대략 예상하는 것이 아니라 사실은 다음과 같은 빅 데이터들의 분석 결과이다. GDP나 1인당 GDP, 인구, 올림픽 개최경험, 공산권 국가는 강세를 보였다는 기존 데이터, 사회복지지표, 문자해독률(literacy rate), 정보화 지수(information index), 종교, 기후 그리고 마지막으로 경제학에서 자주 활용되는 콥-더글라스(Cobb-Douglas) 생산함수가 메달 개수의 예측을 위한 데이터로 사용된다.

GDP나 1인당 GDP와 인구는 통계적으로 메달 개수를 결정하는 유의한 요인임이 연구를 통하여 확인된 바 있다. 올림픽 개최 경험과 공산권 국가의 강세는 기존 데이터를 분석한 결과 알아낸 사실이며 종교와 기후 또한, 유의할 가능성이 있는 많은 데이터를 바탕으로 분석된 결과를 통해 선택된 것들이다. 이렇게 수집된 결과를 이용하여 현재 약 95%의 정확도로 메달을 예측할 수 있다고 하니 그 정확성에 놀라울 따름이다. 기존 언론에서 분석된 결과가 이러한 데이터들을 바탕으로 분석되어 발표된 것이라면 올해의 올림픽 결과도 이 예측에서 크게 벗어나지 않을 것임으로 예상할 수 있다.

하지만 기존의 예측들은 선수들의 데이터를 배제하였다는 단점이 있다. 기존 연구에서 유의할 것으로 분석된 다른 여러 데이터 보다 경기력에 직접적인 영향을 미치는 선수들의 데이터를 사용하는 것이야말로 가장 정확히 메달의 개수를 예측하는 데이터가 될 수 있을 것이다. 하지만 선수들의 데이터가 사전에 공개되면 실제 경기 결과에 상당한 영향들 미칠 수 있으므로 아직 메달 개수 예측에 활용하지 못하고 있다고 생각된다.

올림픽은 우리에게 극본 없는 드라마로 감동을 주지만 올림픽의 결과는 기존 유의한 데이터와 선수들의 데이터를 가지고 예측할 수 있을 정도의 빅 데이터를 수집하여 유의성을 분석하고 결과를 도출해낼 수 있다면 미리 예견할 수 있는 결과로 생각할 수도 있다. 현재 완벽한 예측률이 되기 위해서는 아직 5% 부족하지만, 앞으로의 빅 데이터 기술과 데이터 분석과 내재한 가치를 추출하기 위한 필요한 대규모 통계 처리, 데이터 마이닝 등의 분석 방법이 발전한다면 100%에 가까운 예측도 어렵지 않을 것이다.

이처럼 데이터 마이닝은 '빅 데이터 집합으로부터 유용한 정보를 추출하는 것' (Hand et al., 2001) 이며 '의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반 자동화된 도구를 이용하여 빅 데이터를 탐색하고 분석하는 과정이다' (Berry and Linoff, 1997, 2000) 그렇기 때문에 빅 데이터 시대에 데이터마이닝의 중요성은 점차 커지고 있다.

우리는 데이터를 분석하여 올림픽 메달의 개수까지도 예측하는 시대에 살고 있다. 이는 전혀 놀랄만한 일이 아니며 앞으로 빅 데이터의 수집과 데이터마이닝 기술이 발전함에 따라 데이터만 더 놀라운 것들도 실현 가능하게 될 것이다. 그것은 사람의 구매 행동, 성향, 생활 방식은 물론이고 심지어는 범죄행위를 예측 가능할 것이다. 영화에서만 상상할 수 있을 법한 일들이 현실로 다가올 것이다. 이것이 올림픽이 열리는 올해 우리가 빅 데이터를 주목해야 하는 이유이다.


나의 스트레스 원칙

나는 평소에 어떤 일에 의도적으로 무관심할 때가 많다. 무관심을 조금 나쁜 의미로 얘기하면 참견하지 않는 것으로도 생각할 수도 있겠다. 나는 정치, 사회, 경제 또는 특정 사람 등에 대해서도 의도적으로 무관심할 때가 있다. 내가 왜 이러는지는 굳이 설명하지 않아도 보통의 사람이라면 대부분 공감할 것으로 생각한다. 그 이유는 그것에 관심을 두는 순간 관련된 스트레스로부터 자유롭지 못하기 때문이다.

나는 특히 일과 관련되어서는 더 무관심한 편이다. 현재 다니고 있는 회사는 업무시간에 상당히 조용한 편인데 이런 사무실에서 때로 작은 소리의 토론이라도 벌어진다면 모두에게 공유되고 만다. 그 토론이 나와는 상관없는 주제일지라도 만약 그것이 내 생각과 다르다면 나는 그 대화에 개입하고 싶은 욕구가 생긴다. 하지만 나는 대부분 일부러 관심을 두지 않는다. 가끔 내가 대화에 개입하는 때도 있는데 그것은 지금 내가 관심 갖지 않으므로 결정된 결과가 미래 내 스트레스에 영향을 주는 것일 것이다. 이처럼 나는 스트레스를 피하기 위해서 나에게 미치는 스트레스의 강도에 따라 행동하는 '스트레스 원칙'을 가지고 있다.

소프트웨어를 개발할 때에도 마찬가지이다. 개발 작업은 매우 정교하고 논리적이어야 하기므로 상당한 집중력이 요구된다. 요즘은 paper work가 많아서 예전만큼 집중해서 코딩 작업을 못하는 편이긴 하지만 개발 시간에는 대체로 다른 외부 자극으로부터 무관심하려고 하고 있다. 집중을 위해서 도움이 되는 음악을 듣기도 한다. 이것은 집중하지 않아서 생기는 실수로 미래 나에게 더 큰 스트레스로 돌아오기 것을 방지하기 위함이다. 하지만 때론 다른 사람의 토론이 이런 나의 노력의 방어막을 뚫고 집중력을 깨트리는 경우가 있다. 이럴 때 사실 나는 상당한 불쾌감을 느끼지만, 이 경우에도 나는 그 순간 '스트레스 원칙'에 따라 개입할지를 결정한다.

개발할 때 때로는 다른 사람이 만들어 놓은 코드를 봐야 할 경우가 있다. 내가 지금까지 다른 사람의 많은 코드를 봐왔던 것은 아니지만 다른 사람이 작성한 코드를 봤을 때 고치고 싶지 않았던 경우는 거의 없었던 것으로 기억한다. 나는 다른 사람의 코드를 볼 때 버그가 있어 현재 문제를 일으키지 않는 이상 이전 코드를 작성한 사람을 비난하지도 않는다. 이것은 내가 그와 같은 상황일지라도 더 좋은 코드를 작성할 수 있다고 장담할 수 없기 때문이다. 작성된 코드에는 그 사람의 성격 그리고 그렇게 할 수밖에 없었던 당시 상황들이 반영되어 있을 것이로 생각한다. 나는 이 부분에도 '스트레스 원칙'을 적용하는데 지금 수정하지 않아서 발생한 문제로 나에게 더 큰 스트레스를 줄 것이라고 예상되지 않으면 그 코드에 손대지 않는다.

하지만 최근 깨달은 놀라운 사실이 있다. 무관심에 관한 것인데 무관심을 영어로 'indifference'라고 하고 '평범'과 같은 의미로 쓰인다는 것이다. 내가 지금껏 '스트레스 원칙'이라 정의하여 무관심했던 일들을 '평범'이라는 단어로 다시금 생각할 수 있다는 것이다. 내가 어떤 일에 무관심하다는 것은 다시 말해 그것이 평범하기 때문이라는 것으로도 생각할 수 있지 않을까? 어떠한 뛰어난 의견을 내가 스트레스를 받지 않기 위해 자기방어적으로 받아들이고 싶지 않기 때문에 무관심하였던 것은 아니었을까? 내가 지금까지 무관심했던 것들이 정말 정당하고 올바른 것이었을까?

비범한 능력을 발휘했던 애플의 스티브 잡스(Steve Jobs)도 그의 완벽을 추구하는 성격 때문에 직원들이 스트레스를 많이 받았다는 이야기를 들은 적이 있다. 스티브 잡스가 평범한 사람이었고 그가 요구하는 것들이 평범했다면 직원들이 스트레스를 그토록 많아 받았을까 하는 생각을 해본다. 나의 결론은 '그렇지 않았을 것이다.'라는 것이다. 만약 스티브 잡스가 평범한 사람이어서 직원들의 스트레스가 적었다면 현재 애플의 위대한 성과를 이뤄낼 수 있었을까? 결코, 이룰 수 없었을 것이다.

나는 나의 '스트레스 원칙'을 수정할 필요가 있다고 생각한다. 빌 게이츠(Bill Gates)가 했던 말 "We've got to put a lot of money into changing behavior."처럼 행동을 변화 시키기 위해서는 많은 투자가 필요므로 당장 내가 이런 '스트레스 원칙'에서 벗어나기는 쉽지 않아 보인다. 하지만 먼저 뛰어난 성과 뒤에는 그만큼의 스트레스가 따르기 마련인 것을 인정하고 그 스트레스가 모두 정당한 것이 아닐지라도 그중에 있을 수 있는 비범한 의견을 놓이는 경우가 있다는 것을 인정한다면 지금처럼 무관심만으로 대응해서는 안 될 것이다.

지금까지 내 주위에 스트레스를 주고 있는 사람이 있다면 혹시 나와 다른 의견, 때로는 더 좋은 의견을 제시하기 때문이 아니었을까를 다시 생각해본다. 아직 완성되지 않은 '스트레스 원칙'을 다듬어서 좀 더 발전된 방향으로 나 자신을 이끌어 가고 싶다. 타인에 대해 존중하며 수용적인 태도를 지니면서 스스로 나 자신에 무례(disrespect)하지 않는 태도는 쉽지는 않지만 지향해야 할 목표이다.




Subscribe to: Posts (Atom)