Skip to main content

올림픽을 통해 빅 데이터를 본다.

현재 우리는 데이터 홍수의 시대에서 살아가고 있다. 스마트폰의 보급과 SNS의 폭발적인 확산으로 우리가 하루에 생산하는 데이터양은 무려 약 2.1 액사바이트(Exabyte, EB)에 이르고 있다. 우리는 매일 5천만 개 이상의 트윗과 매일 약 1억 개 이상의 페이스북 메시지를 작성하고 있다. 우리가 매일 생산하는 데이터를 바이트(bytes)로 계산하면 250경 바이트에 달한다. 이는 600 메가바이트(Megabyte, MB) 짜리 영화를 39억 개 이상 저장하는 데이터의 크기와 같다. 엄청난 양의 데이터이다. 시장조사 전문기관인 IDC에 따르면 2011년도 전 세계의 디지털 정보량의 약 1.8 제타바이트(Zettabyte, ZB)에 달할 것으로 전망되고 5년 이내에 9배까지 증가할 것으로 전망되고 있다.

2012년 다보스 세계경제포럼에서 가장 주목할 기술로 빅 데이터(Big Data)가 지목되었다. 우리가 매일 생산하는 수많은 데이터들은 그의 양과 생성주기, 형식 등이 과거에 비해 크고 형태가 다양하여 빅 데이터로 간주하며 주목 받고 있다. TDWI Research 의 2011 Big Data Analytic Report에서는 빅 데이터의 세 가지 요소인 3V를 정의하였다. 3V는 데이터의 다양성(Variety), 규모(Volume), 빠른 속도(Velocity) 이다. 세 가지 중에서 두 가지 이상을 충족시킬 수 있으면 빅 데이터 기술을 말한다고 할 수 있다.
 
올해는 빅 데이터가 주목 받는 해이기도 하지만 하계 올림픽이 열리는 해이기도 하다. 올림픽은 4년에 한 번씩 열리며 세계의 잔치이다. 올림픽에서 좋은 성과를 거둔다는 것은 국가의 위상을 높이는 일이고 직간접적인 경제 이익을 가져다 주기 때문에 참가하는 국가에서는 결과를 관심 있게 다루고 있다. 언론에서는 올림픽 예상 메달(medal) 개수와 순위를 예측하고 있고 기업들은 메달 개수를 맞추는 마케팅을 진행하는 것을 어렵지 않게 볼 수 있다.

빅 데이터와 올림픽의 메달 개수는 서로 연관이 없는 것처럼 보이지만 아주 밀접한 관계가 있다. 메달의 계수를 예측하는 것은 국민의 염원을 담아서 대략 예상하는 것이 아니라 사실은 다음과 같은 빅 데이터들의 분석 결과이다. GDP나 1인당 GDP, 인구, 올림픽 개최경험, 공산권 국가는 강세를 보였다는 기존 데이터, 사회복지지표, 문자해독률(literacy rate), 정보화 지수(information index), 종교, 기후 그리고 마지막으로 경제학에서 자주 활용되는 콥-더글라스(Cobb-Douglas) 생산함수가 메달 개수의 예측을 위한 데이터로 사용된다.

GDP나 1인당 GDP와 인구는 통계적으로 메달 개수를 결정하는 유의한 요인임이 연구를 통하여 확인된 바 있다. 올림픽 개최 경험과 공산권 국가의 강세는 기존 데이터를 분석한 결과 알아낸 사실이며 종교와 기후 또한, 유의할 가능성이 있는 많은 데이터를 바탕으로 분석된 결과를 통해 선택된 것들이다. 이렇게 수집된 결과를 이용하여 현재 약 95%의 정확도로 메달을 예측할 수 있다고 하니 그 정확성에 놀라울 따름이다. 기존 언론에서 분석된 결과가 이러한 데이터들을 바탕으로 분석되어 발표된 것이라면 올해의 올림픽 결과도 이 예측에서 크게 벗어나지 않을 것임으로 예상할 수 있다.

하지만 기존의 예측들은 선수들의 데이터를 배제하였다는 단점이 있다. 기존 연구에서 유의할 것으로 분석된 다른 여러 데이터 보다 경기력에 직접적인 영향을 미치는 선수들의 데이터를 사용하는 것이야말로 가장 정확히 메달의 개수를 예측하는 데이터가 될 수 있을 것이다. 하지만 선수들의 데이터가 사전에 공개되면 실제 경기 결과에 상당한 영향들 미칠 수 있으므로 아직 메달 개수 예측에 활용하지 못하고 있다고 생각된다.

올림픽은 우리에게 극본 없는 드라마로 감동을 주지만 올림픽의 결과는 기존 유의한 데이터와 선수들의 데이터를 가지고 예측할 수 있을 정도의 빅 데이터를 수집하여 유의성을 분석하고 결과를 도출해낼 수 있다면 미리 예견할 수 있는 결과로 생각할 수도 있다. 현재 완벽한 예측률이 되기 위해서는 아직 5% 부족하지만, 앞으로의 빅 데이터 기술과 데이터 분석과 내재한 가치를 추출하기 위한 필요한 대규모 통계 처리, 데이터 마이닝 등의 분석 방법이 발전한다면 100%에 가까운 예측도 어렵지 않을 것이다.

이처럼 데이터 마이닝은 '빅 데이터 집합으로부터 유용한 정보를 추출하는 것' (Hand et al., 2001) 이며 '의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반 자동화된 도구를 이용하여 빅 데이터를 탐색하고 분석하는 과정이다' (Berry and Linoff, 1997, 2000) 그렇기 때문에 빅 데이터 시대에 데이터마이닝의 중요성은 점차 커지고 있다.

우리는 데이터를 분석하여 올림픽 메달의 개수까지도 예측하는 시대에 살고 있다. 이는 전혀 놀랄만한 일이 아니며 앞으로 빅 데이터의 수집과 데이터마이닝 기술이 발전함에 따라 데이터만 더 놀라운 것들도 실현 가능하게 될 것이다. 그것은 사람의 구매 행동, 성향, 생활 방식은 물론이고 심지어는 범죄행위를 예측 가능할 것이다. 영화에서만 상상할 수 있을 법한 일들이 현실로 다가올 것이다. 이것이 올림픽이 열리는 올해 우리가 빅 데이터를 주목해야 하는 이유이다.

Popular posts from this blog

클라우드 컴퓨팅(Cloud Computing) 기술 정리

1. 클라우드 컴퓨팅(Cloud Computing)이란?

클라우드 컴퓨팅에 대해서는 현재 매우 다양한 정의가 존재한다. 이 중 몇 가지를 정리하면 다음과 같다. 첫 번째 정으로 클라우드 컴퓨팅은 다양한 클라이언트 디바이스에서 필요할 때 언제든지 인터넷을 이용한 공유 풀에 있는 서버, 스토리지, 어플리케이션, 서비스 등과 같은 IT 리소스에 쉽게 접근할 수 있게하는 모델이다.

또 다른 정의로는 서로 다른 물리적 위치에 존재하는 컴퓨터들의 리소스를 가상화 기술로 통합해 제공하는 기술이라고도 생각할 수 있다. 개인적으로 클라우드 컴퓨팅의 개념을 이해는데 세일즈포스닷컴(www.salesforce.com)[1]이 만든 이 동영상[2]이 전반적인 이해를 돕는데 매우 유용하다. 아래 그림은 여러 대표적인 클라우드 서비스들의 사용 예를 보여주고 있다.



1.1. 클라우드 컴퓨팅의 장점[4]

사용자가 자신의 필요에 따라 무한정의 컴퓨팅 자원을 사용할 수 있다는 환상(Illusion)을 제공한다. 그러므로 사용자는 하드웨어와 소프트웨어 시스템을 제공하는 계획을 미리 세울 필요가 없다. 사용자는 작은 시스템으로부터 시작할 수 있고 시스템 자원에 대한 요구가 증가함에 따라 시스템 자원을 증가시키면 된다. 필요에 따라 짧은 시간을 단위로 (예를 들어 프로세서를 시간 당 또는 스토리지를 날짜 당) 사용하고 비용을 지불하면 되고 필요가 사라지면 자원을 더 사용하지 않을 수 있다.

1.2. 기존 클라우드 컴퓨팅 사례1.2.1. 아마존
EC2(컴퓨팅 서비스)Auto Scaling(자동으로 서버 생성 가능)Elastic Load Balancing(소프트웨어 로드벨런싱 기능)CloudWatch(모니터링 정보 제공)Amazon Elastic Block Store(EBS, 빠르고 안정적인 스토리지)Amazon Simple Storage Service(Amazon S3, 스토리지 서비스)SimpleDB(데이터베이스 서비스)
1.2.2. 구글
GFS(구글파일시스템, 대용량 파일 처리 가능 시스템)MapR…

규칙기반 전문가 시스템 (Rule-based expert system)

컴퓨터로 어떤 일을 시킬 때 보통은 명확한 규칙에 따라서 처리하게 된다. 그 이유는 아직 컴퓨터는 인공지능을 갖지 못하였다. 인간처럼 여러 가지 지식과 현상을 조합해 사고하지 못한다는 말이다. 그 때문에 사람이 컴퓨터의 능력을 이용해 어떤 일을 처리할 때는 일련의 규칙이 필요했다. 예를 들면 IF … Then … Else로 표현되는 규칙을 적용하는 것이다.

하지만, 실생활의 문제들은 이것들도 표현할 수 없는 것들이 너무 많다. 인간이 생각하는 거의 모든 것들이 이런 모호함의 집합이다. “오늘 날씨 너무 덥다. 시원하게 에러컨좀 틀어!”라고 했을 때 “너무 덥다.”, “시원하게” 등의 말들은 컴퓨터가 처리할 수 없는 것들이다. 몇 도로 온도를 유지했을 때 시원하다고 느끼는지 컴퓨터 자체만으로는 알 수가 없다. 컴퓨터는 정확히 수치화된 데이터만 가지고 처리하는 기계이기 때문이다. 이런 문제들을 처리하는 여러 방법의 하나인 규칙기반 전문가 시스템(Rule-based expert system)에 대해 얘기해 보겠다.

이처럼 컴퓨터가 처리해야 하는 문제들은 어떤 분야의 전문가가 처리하던 것을 컴퓨터가 대신하는데 의미가 있다. 나는 이것을 전문가의 지식을 처리한다고 정리한다. 그리고 전문가라고 불리는 사람들은 어떤 지식에 대해 규칙을 만들 수 있는 사람이고 규칙이란 앞서 얘기했던 대로 IF … Then … Else 형태로 표현할 수 있는 것을 말한다.

규칙기반 전문가 시스템은 관련주제에 지식이 풍부하고 관련 문제를 푸는데 능숙한 주제 전문가(domain expert), 전문가 시스템을 테스트하고 규칙을 추론할 수 있는 지식공학자(knowledge expert), 전문가 시스템의 개발 리더인 프로젝트 관리자(project manager), 프로그래머(programmer) 그리고 최종사용자(end-user)로 구성되어 있다.

또한, 규칙기반 전문가는 기반지식(knowledge base), 데이터베이스(Database), 추론 엔진(Interface engine), 해설설비…

인터넷이 우리 사회에 미치는 영향

믿기 어렵겠지만 몇 년 전만 해도 간단한 정보를 검색하기 위해선 백과사전이 필요했고 적은 분량의 백과사전에서 찾을 수 없을 땐 도서관에 가야 했고 또 작은 도서관에서 찾을 수 없을 땐 좀더 큰 도서관으로 가야 했었다. 과연 지금의 중학교, 고등학교 학생들은 과연 몇 명이나 이래야만 했던 사정을 이해해줄지 모르겠다.

하지만 이제는 사정이 달라졌다. 인터넷의 등장으로 예전처럼 정보검색에 수많은 시간과 노력을 쏟지 않아도 더 쉽게 더 좋은 자료를 검색할 수 있고 그를 여러 가지 형태의 미디어로 접할 수 있는 시대가 되었다. 예전에 ‘팀 버너스 리(Tim Berners-Lee)’ 가 처음으로 구체적으로 주장했던 하이퍼미디어(Hypermedia)와 그로 이루어진 인터넷으로 인해 우리 생활은 많이 변화했고 또 이제는 없어서는 안될 것으로 멀티미디어 환경으로 진화해 왔다는 사실은 아무도 부인하지 못할 것이다.

사실 인터넷의 등장만으로도 우리에겐 막대한 영향을 끼쳤다. 하지만 여기서 인터넷의 멀티미디어로서의 역할을 배제한다면 그 영향력을 전부 얘기하지는 못할 것이다. 멀티미디어로서의 인터넷은 위에서 얘기한 것처럼 빠른 정보검색은 물론이고 보다 효율적인 방법으로 정보전달의 기능을 가지고 있다.

대학교 1학년 때 처음 컴퓨터를 공부할 때 일이다. 네트웍에 대해 공부하고 있었는데 마침 네트웍을 설명하고 있는 동영상을 인터넷에서 발견했다. ‘The dawn of the Net’ 이라는 동영상 이였는데 네트웍 패킷이나 라우터, 라우터 스위치 등등 전체적인 네트웍에 대해서 알기 쉽게 설명한 동영상이었다. 이 동영상은 너무 쉽고 직관적이어서 누구라도 이것을 본 사람이라면 네트웍에 대해 모두 안 것 같은 착각을 하게 만들 정도였다. 하지만 대략적인 네트웍에 대해서 안다고 해서 전문가가 되었다고 말할 수는 없을 것이다. 간단해 보이는 현상 뒤에 숨겨져 있는 지식들을 모두 이해하고 설명할 수 있을 때 비로소 전문가라 부를 수 있을 것이다.

이런 멀티미디어적인 환경은 대부분에 사람들에게 보다…