빅데이터

내위키
Dennis (토론 | 기여)님의 2015년 6월 22일 (월) 22:04 판 (→‎크기)

big data.

말 그대로 '큰 데이터'다. 그런데 도대체 얼마나 큰 데이터여야 빅데이터인가? 단지 크기의 문제가 아니라, 기존의 데이터 처리 방법으로는 더 이상 감당이 안될 만큼 거대하고, 다양한 데이터라고 할 수 있다.


빅데이터의 3V

빅데이터라는 개념을 정의하기 위해서 다양한 시도가 있었고, 다양한 정의 및 분류가 있었으나, 가트너의 애널리스트 더그 레이니가 제시한 3V가 널리 통용되는 편이다. 3V는 크기(volume), 속도(velocity), 다양성(variant)을 뜻한다.

크기

크기(volume)는 말할 것도 없다. 하루에도 어마어마한 양의 정보가 쏟아지고 축적되고 있다. IBM은 전 세계에서 날마다 생산되는 데이터의 양을 2.3조 기가바이트로 추정했다. (2.3조 바이트가 아니다.) 2012년 기준으로 페이스북은 하루에 500 테라바이트(51만2천 기가바이트)의 데이터를 처리하는 것으로 알려졌다. 유튜브에 1분마다 올라오는 동영상의 분량은 300시간이다. 하루에 49.3년 분량의 동영상이 업로드되고 있는 것이다. 현상은 자연스럽다. 과거에는 올릴 수 있는 건 글뿐이었다. 이제는 사진, 음악, 동영상도 오갈 수 있다. 사진 파일보다는 동영상 파일의 용량이 훨씬 크고, 저화질 동영상보다 HD 동영상의 용량이 훨씬 크다. 요즘은 야동도 풀HD 시대. 시간이 지날수록 네트워크를 오가는 데이터의 양은 급속하게 늘어날 수밖에 없다.

사용자가 주고 받는 데이터만이 전부는 아니다. 옛날에는 인터넷 서비스는 지역 장벽이 있었다. 인터넷은 장벽이 없지만 인터넷 서비스는 그렇지 않았다. 예를 들어, 검색엔진 초창기에는 검색엔진의 범위가 국가, 또는 언어권으로 국한되어 있었다. 야후는 각국별로 특화된 서비스를 제공했고 그에 따라서 서버도 분리되어 있었다. 브랜드는 글로벌이었지만 서비스는 글로벌로 통합되어 있었던 것은 아니었다. 그러나 이제는 글로벌 통합된 서비스가 대세다. 구글은 각국별로 도메인이 있지만 검색을 해보면 전 세계 웹사이트가 검색 범위다. 다만 국가별로 우선 순위가 다를 뿐이다. 페이스북이나 트위터도 전세계 어디서든 똑같은 서비스를 제공 받는다.

페이스북 본사는 미국에 있지만 서버는 그렇지 않다. 인터넷의 속도는 물리적인 거리에 영향을 받는다. 특히 대양을 건너려면 해저 케이블을 통해야 하는데, 이 용량을 증설하는 것은 쉬운 일이 아니다. 어느 나라에서 접속해도 빠른 속도를 제공하려면 서버가 미국에만 있어서는 안 된다. 모든 나라에 서버를 두지는 않더라도 최소한 권역별로 서버를 두어야 한다. 그렇다면 이 서버끼리도 동기화시켜야 한다.

속도

다양성