Hadoop (빅데이터 플랫폼)
본문


오픈소스 하둡(Hadoop) 빅데이터 플랫폼은 다양한 비정형, 반정형, 정형 빅데이터들을 수집 저장할 수 있습니다.

Sqoop | Apache Sqoop은 RDBMS와 HDFS간의 데이터 교환을 배치 형태로 지원하는 에코 솔루션으로 Oozie 작업과 연계하여 워크플로우 및 스케줄링 연동을 지원합니다. MapReduce 엔진을 사용하기 때문에 장애 상황에도 안정적인 추출/적재 작업 진행 가능합니다. |
---|---|
Flume | Apache Flume은 이벤트성으로 발생하는 스트림 데이터를 Agent 기반으로 수집을 지원하는 에코 솔루션으로 다수의 Flume Agent가 하나 또는 다수의 Flume Collector로 Sync하여 운영을 지원합니다. Logger, Avro, HDFS, HBase 등의 다양한 Sync 기능을 지원하며 커스터마이징이 가능하며 여러 스트리밍 처리 에코시스템과 연계하여 구성 가능합니다. |
Kafka | 대용량의 실시간 로그 처리에 특화되어 설계된 메시징 시스템으로써 기존 범용 메시징 시스템대비 TPS가 매우 우수하며 분산 시스템을 기본으로 설계되었기 때문에, 기존 메시징 시스템에 비해 분산 및 복제 구성을 손쉽게 할 수 있습니다. |
Hive | Apache Hive는 대표적인 SQL on Hadoop 기술로 작성하기 어려운 MapReduce 코드를 SQL 로 인터페이스 가능하게 지원하는 에코 솔루션입니다. Hive용 SQL 언어인 HiveQL을 사용하여 다양한 함수를 활용가능합니다. |
Spark SQL | Apache Spark SQL은 인메모리 엔진인 Spark의 데이터를 익숙한 SQL 기반으로 처리할 수 있도록 지원하는 에코 솔루션 입니다. BI 연동이 용이하고 Spark Context에 Embeding이 용이합니다. |
Spark Streaming |
Apache Spark Streaming은 스트림 데이터를 Spark 인메모리 분산 환경에서 실시간으로 분석을 지원하는 에코 솔루션으로 상태(Stateful) 분석에 사용됩니다. |
Hue | Hue(Hadoop User Experience)는 Apache Hadoop 클러스터와 함께 사용되는 웹 기반 사용자 인터페이스입니다. Hive 작업 및 Pig 스크립트 등을 실행할 수 있으며 Oozie 작업 모니터링 및 스케줄링을 지원합니다. |
Oozie | Oozie는 Hadoop 작업을 관리하는 워크플로 및 코디네이션 시스템으로 DAG(Directed Acyclic Graph, 방향성 비순환 그래프)를 지원합니다. |
Ambari | 하둡 클러스터에서 각 시스템 리소스를 관리하고 모니터하는 운영 프레임워크(Framework)로써, 사용하기 쉬운 웹 UI를 제공하며 Hadoop관리를 단순화 시켜줍니다. |


- 다음글Splunk (빅데이터 분석 모니터링) 21.05.17
댓글목록
등록된 댓글이 없습니다.