반응형

빅데이터 구축 플랫폼 - 하둡, 스파크


SNS등 비정형화된 데이터들이 기하급수적으로 생겨나면서 이런 데이터를 어떻게 처리하고 분석하느냐라는 문제들이 생기게 되었습니다.


이런 빅데이터 플랫폼을 구축(저장 및 관리) 한다고 한다면 보통 하둡과 스파크를 생각하게 됩니다.


그렇다면 하둡과 스파크는 어떤 장점들을 가지고 있고 어떠한 차이점을 가지고 있는지 알아보겠습니다.


빅데이터


1. 하둡(Hadoop)

- 하둡(Hadoop)은 대량의 자료를 처리할 수 있는 대규모 컴퓨터 클러스터에서 동작하는 분산 어플리케이션을 지원하는 오픈 자바 소프트웨어 프레임워크입니다.




하둡의 장점

사실 빅데이터라는 단어가 생겨나기 전에도 이미 대용량 데이터를 다루는 방법은 존재했습니다. 하지만 한계는 분명히 나왔고 기업은 중요하다고 생각되는 데이터를 분석하는데만 집중을 했죠.


또한 비용도 많이 들었고 관련 기술이나 엔지니어가 턱없이 부족했던 것이 그이유입니다.


이럴때 등장한 것이 바로 하둡입니다.


하둡은 여러개의 컴퓨터를 마치 하나인 것처럼 묶어 대용량의 데이터를 처리하는 기술입니다.


1. 수천대의 분산된 x86 장비에 대용량 파일을 저장할 수 있는 기능을 제공하는 분산파일 시스템

2. 저장된 파일 데이터를 분산된 서버의 CPU와 메모리 자원을 이용하여 쉽고 빠르게 분석할 수 있는 컴퓨팅 플랫폼(맵리듀스) 구성.



하둡


하둡의 단점

1. 하둡은 속도가 느리고 트랜젝션을 제공하지 않는다. 즉, 한번 저장한 파일을 수정할 수 없으며, 고가용성을 지원하지 않는다.


2. 자바기반의 오픈 프레임워크이다 보니 자바에 대한 이해도가 없으면 접근성이 어렵다.



2. 스파크

스파크 2013년 UC버클리의 AMP연구실에서 처음 개발된 분석 프레임워크로 하둡 상에서 OR 단독형 클러스터로도 동작을 할 수 있고 빠른 처리속도, 반복학습과 알고리즘 구현에 용이하다.





스파크의 장점

1. 빅데이터 플랫폼중 가장 각광받던 하둡의 메모리에서 100배나 더 빨리 동작할 수 있다.


2. 고급분석에 용이하다. 즉각적인 고급 분석으로 맵리듀스와는 달리 쉽고 빠르게 이용할 수 있는 라이브러리를 제공한다.


3. 빠른 결과를 도출 할 수 있다. 나날이 느려지는 분석 속도와 이로 인한 비지니스 프로세스의 속도가 지연되는 현상이 없어진다.


스파크


빅데이터 구축 플랫폼 상황은 하둡에서 하둡의 단점들을 보안한 스파크로 변화하고 있다. 그렇다고 모든 기업이 스파크만을 사용하지는 않는다. 둘 사이에서 일부 고민을 할 수 는 있지만 서로 경쟁대상은 아니다. 


상호보완적인 기술로 함께 사용 될 수 있으며, 데이터에 따라 어느 한쪽이 좀 더 적합한 정도라 할 수 있습니다.

반응형