Skip to main content

Unique Visitor에 대해

요즘 흔히 인터넷 서비스의 사용을 평가하기 위해 Unique Visitor(이하 UV)를 사용하는 것을 자주 보았을 것이다. UV는 순 방문자 수를 뜻한다. 즉, 한 사람이 여러 번 같은 사이트를 방문했더라고 한 명으로 측정되는 기준을 말한다. UV는 Page View(PV), 트래픽(traffic), 대역폭(bandwidth)과 더불어 해당 서비스의 사용자 분석 및 마케팅 자료로 널리 사용되고 있다. 하지만 connection-less의 웹 환경에서 UV를 정확하게 계산하는 것은 여간 어려운 일이 아니다. 현재 여러 가지 시도를 통해 더 정확한 UV를 계산하기 위한 노력이 이뤄지고 있다.

UV를 계산하는 방식은 크게 사이트 중심(site centric) 방법과 사용자 중심(user centric) 방법으로 나눈다[1]. 두 가지 방법 중 가장 많이 사용되고 있는 방법은 사이트 중심 방법이다. 사이트 중심 방법의 대표적인 것은 수집된 로그를 분석하는 것이다. 다시 말해서 수집된 로그에서 유효한 데이터를 추출하여 UV를 계산하는 것이다. 수집된 로그에서 사용되는 속성으로 IP가 많이 사용된다. 하지만 이는 공유 IP 환경에서 문제가 될 수 있다. 같은 IP 주소로 기록된 로그라도 실제 다른 사용자 일 수 있고 DHCP(Dynamic Host Configuration Protocol)를 기반을 사용하는 ISP 업체의 서비스 종류에 따라 IP는 요청 시 변경될 수 있다. 개선된 방법으로 IP와 User-Agent를 동시에 확인하는 방법이 제안되었다. 하지만 이 방법 또한 IP와 User-Agent 모두 같은 환경에서 사용자를 구분해 낼 수는 없다.

사이트 중심 방법 중 비교적 정확하다고 알려진 방법은 첫째로 로그인 기반 정보를 이용하는 방법이다. 이 경우 특정 시간대별로 사용자를 구분해 낼 수 있다. 두 번째로 쿠키(cookie)를 이용해서 계산하는 방법이다. 처음 방문할 때 해당 서비스에 대해 쿠키가 생성되고 쿠키가 만료되기 전까지는 여러 번 방문하더라도 같은 사용자로 인식한다. 구글(Google)의 Analytics 서비스도 이 방법을 사용한다[2]. 하지만 첫 번째 경우 한 사용자가 중복된 계정을 통해서 같은 서비스를 이용할 경우 오차가 발생하게 되고 두 번째 경우는 같은 컴퓨터를 여러 명이 사용하는 공공 환경에서의 통계는 활용할 수 없다는 문제점이 있다. I/Pro, NetCravity, MachLogic가 사이트 중심 방법을 채택하고 있다.

사용자 중심 방법은 표본 추출에 기초한 패널을 구성한 뒤 데이터 수집 소프트웨어를 설치해 행동을 추적한다. TV 시청률 조사 방법인 피플미터(people meter) 방식과 유사하다. 사용자 중심 방법의 전제 조건으로 독립적이고 객관적인 제3의 기관에 의해 측정됨으로써 객관성이 확보되어야 한다. 패널 기반으로 하고 있기 때문에 인구 통계학적 특성 및 시간 경과에 따른 사용 누적 통계 파악이 가능하다. 하지만 사용자의 요청들과 행위들을 모두 수집하는 데 어려움이 있고 데이터를 수집하는 소프트웨어에 따라 정확도와 신뢰성이 크게 좌우될 수 있다. ComScoreMatrix, Nielsen/NetRations, 코리안 클릭 등이 사용자 중심 방식을 채택하고 있다.

코리안 클릭은 iTrack이란 소프트웨어를 사용하고 1만 명 가량의 패널을 사용하여 인구 비례에 맞추어 전체 인터넷 사용자의 패턴을 역산한다[3]. iTrack의 특성상 윈도우(Windows)의 인터넷 익스플로어 사용자로 범위가 제한된다. 패널에 설치된 iTrack을 이용해 방문한 사이트 정보를 실시간으로 전송받아 패널이 속한 고객 세그먼트에 따라 통계적 기법을 적용하고 추정한다.

Fig.1 Count on Confusion[4]

상이한 수집방법과 오차들로 때문에 통계 수집기관마다 결과가 달라질 수 있다. 2008년 월스트리트 저널에 실린 한 기사[4](Fig.1 참고)에 따르면 닐슨(Nielson)이 수집한 UV 데이터와 comScore의 데이터가 서도 다름을 알 수 있다. 아직 마땅한 대안이 없어 많은 마케터들이 광고비 지출에 대해서는 comScore나 닐슨, iTrack같은 웹 측정 회사에 의존하고 있는데 이러한 결과의 맹목적인 신뢰는 잘못된 의사결정으로 이어질 수 있는 문제점이 있다. 심지어 “인터넷에 진실은 없다.”라는 말도 이 있다. 이것은 보는 관점에 따라 무엇이든 진실이 될 수 있다는 의미로 생각한다. 국내에서는 통계 수집기관이 다양하지 않음으로 인해 그 결과의 완전히 신뢰하는 것은 의사판단에 위험이 너무 크다. 따라서 의사 결정에서 이러한 통계는 참고자료로만 활용해야 하고 실제로 정확한 통계를 필요할 경우 가지고 있는 인프라나 다른 신뢰할 수 있는 채널을 통해 정보를 얻는 것이 바람직하다고 생각한다.


References

[1] 넬슨코리안클릭
[2] Unique Visitors (or Absolute Unique Visitors)
[3] 인터넷 포털에서의 과학 토픽 검색에 관한 연구 / 송대섭 / 2009
[4] Agencies Know the Score on Web Tracking

Popular posts from this blog

클라우드 컴퓨팅(Cloud Computing) 기술 정리

1. 클라우드 컴퓨팅(Cloud Computing)이란?

클라우드 컴퓨팅에 대해서는 현재 매우 다양한 정의가 존재한다. 이 중 몇 가지를 정리하면 다음과 같다. 첫 번째 정으로 클라우드 컴퓨팅은 다양한 클라이언트 디바이스에서 필요할 때 언제든지 인터넷을 이용한 공유 풀에 있는 서버, 스토리지, 어플리케이션, 서비스 등과 같은 IT 리소스에 쉽게 접근할 수 있게하는 모델이다.

또 다른 정의로는 서로 다른 물리적 위치에 존재하는 컴퓨터들의 리소스를 가상화 기술로 통합해 제공하는 기술이라고도 생각할 수 있다. 개인적으로 클라우드 컴퓨팅의 개념을 이해는데 세일즈포스닷컴(www.salesforce.com)[1]이 만든 이 동영상[2]이 전반적인 이해를 돕는데 매우 유용하다. 아래 그림은 여러 대표적인 클라우드 서비스들의 사용 예를 보여주고 있다.



1.1. 클라우드 컴퓨팅의 장점[4]

사용자가 자신의 필요에 따라 무한정의 컴퓨팅 자원을 사용할 수 있다는 환상(Illusion)을 제공한다. 그러므로 사용자는 하드웨어와 소프트웨어 시스템을 제공하는 계획을 미리 세울 필요가 없다. 사용자는 작은 시스템으로부터 시작할 수 있고 시스템 자원에 대한 요구가 증가함에 따라 시스템 자원을 증가시키면 된다. 필요에 따라 짧은 시간을 단위로 (예를 들어 프로세서를 시간 당 또는 스토리지를 날짜 당) 사용하고 비용을 지불하면 되고 필요가 사라지면 자원을 더 사용하지 않을 수 있다.

1.2. 기존 클라우드 컴퓨팅 사례1.2.1. 아마존
EC2(컴퓨팅 서비스)Auto Scaling(자동으로 서버 생성 가능)Elastic Load Balancing(소프트웨어 로드벨런싱 기능)CloudWatch(모니터링 정보 제공)Amazon Elastic Block Store(EBS, 빠르고 안정적인 스토리지)Amazon Simple Storage Service(Amazon S3, 스토리지 서비스)SimpleDB(데이터베이스 서비스)
1.2.2. 구글
GFS(구글파일시스템, 대용량 파일 처리 가능 시스템)MapR…

규칙기반 전문가 시스템 (Rule-based expert system)

컴퓨터로 어떤 일을 시킬 때 보통은 명확한 규칙에 따라서 처리하게 된다. 그 이유는 아직 컴퓨터는 인공지능을 갖지 못하였다. 인간처럼 여러 가지 지식과 현상을 조합해 사고하지 못한다는 말이다. 그 때문에 사람이 컴퓨터의 능력을 이용해 어떤 일을 처리할 때는 일련의 규칙이 필요했다. 예를 들면 IF … Then … Else로 표현되는 규칙을 적용하는 것이다.

하지만, 실생활의 문제들은 이것들도 표현할 수 없는 것들이 너무 많다. 인간이 생각하는 거의 모든 것들이 이런 모호함의 집합이다. “오늘 날씨 너무 덥다. 시원하게 에러컨좀 틀어!”라고 했을 때 “너무 덥다.”, “시원하게” 등의 말들은 컴퓨터가 처리할 수 없는 것들이다. 몇 도로 온도를 유지했을 때 시원하다고 느끼는지 컴퓨터 자체만으로는 알 수가 없다. 컴퓨터는 정확히 수치화된 데이터만 가지고 처리하는 기계이기 때문이다. 이런 문제들을 처리하는 여러 방법의 하나인 규칙기반 전문가 시스템(Rule-based expert system)에 대해 얘기해 보겠다.

이처럼 컴퓨터가 처리해야 하는 문제들은 어떤 분야의 전문가가 처리하던 것을 컴퓨터가 대신하는데 의미가 있다. 나는 이것을 전문가의 지식을 처리한다고 정리한다. 그리고 전문가라고 불리는 사람들은 어떤 지식에 대해 규칙을 만들 수 있는 사람이고 규칙이란 앞서 얘기했던 대로 IF … Then … Else 형태로 표현할 수 있는 것을 말한다.

규칙기반 전문가 시스템은 관련주제에 지식이 풍부하고 관련 문제를 푸는데 능숙한 주제 전문가(domain expert), 전문가 시스템을 테스트하고 규칙을 추론할 수 있는 지식공학자(knowledge expert), 전문가 시스템의 개발 리더인 프로젝트 관리자(project manager), 프로그래머(programmer) 그리고 최종사용자(end-user)로 구성되어 있다.

또한, 규칙기반 전문가는 기반지식(knowledge base), 데이터베이스(Database), 추론 엔진(Interface engine), 해설설비…

인터넷이 우리 사회에 미치는 영향

믿기 어렵겠지만 몇 년 전만 해도 간단한 정보를 검색하기 위해선 백과사전이 필요했고 적은 분량의 백과사전에서 찾을 수 없을 땐 도서관에 가야 했고 또 작은 도서관에서 찾을 수 없을 땐 좀더 큰 도서관으로 가야 했었다. 과연 지금의 중학교, 고등학교 학생들은 과연 몇 명이나 이래야만 했던 사정을 이해해줄지 모르겠다.

하지만 이제는 사정이 달라졌다. 인터넷의 등장으로 예전처럼 정보검색에 수많은 시간과 노력을 쏟지 않아도 더 쉽게 더 좋은 자료를 검색할 수 있고 그를 여러 가지 형태의 미디어로 접할 수 있는 시대가 되었다. 예전에 ‘팀 버너스 리(Tim Berners-Lee)’ 가 처음으로 구체적으로 주장했던 하이퍼미디어(Hypermedia)와 그로 이루어진 인터넷으로 인해 우리 생활은 많이 변화했고 또 이제는 없어서는 안될 것으로 멀티미디어 환경으로 진화해 왔다는 사실은 아무도 부인하지 못할 것이다.

사실 인터넷의 등장만으로도 우리에겐 막대한 영향을 끼쳤다. 하지만 여기서 인터넷의 멀티미디어로서의 역할을 배제한다면 그 영향력을 전부 얘기하지는 못할 것이다. 멀티미디어로서의 인터넷은 위에서 얘기한 것처럼 빠른 정보검색은 물론이고 보다 효율적인 방법으로 정보전달의 기능을 가지고 있다.

대학교 1학년 때 처음 컴퓨터를 공부할 때 일이다. 네트웍에 대해 공부하고 있었는데 마침 네트웍을 설명하고 있는 동영상을 인터넷에서 발견했다. ‘The dawn of the Net’ 이라는 동영상 이였는데 네트웍 패킷이나 라우터, 라우터 스위치 등등 전체적인 네트웍에 대해서 알기 쉽게 설명한 동영상이었다. 이 동영상은 너무 쉽고 직관적이어서 누구라도 이것을 본 사람이라면 네트웍에 대해 모두 안 것 같은 착각을 하게 만들 정도였다. 하지만 대략적인 네트웍에 대해서 안다고 해서 전문가가 되었다고 말할 수는 없을 것이다. 간단해 보이는 현상 뒤에 숨겨져 있는 지식들을 모두 이해하고 설명할 수 있을 때 비로소 전문가라 부를 수 있을 것이다.

이런 멀티미디어적인 환경은 대부분에 사람들에게 보다…