[Spark] Spark & Zeppelin

Hadoop/Spark

DEV_YUN 2022. 6. 21. 15:13

개발서버에 Spark와 Zeppelin을 구축하였습니다.

Apache Spark는 오픈소스이며, 빅데이터를 분석하는 오픈 소스 병렬 처리 프레임워크입니다.

Spark는 In-memory의 연산을 통해 처리 성능을 향상시켜서 대량의 데이터를 처리하므로 기존의 디스크 기반 대체 방법보다 빠릅니다.

Zeppelin은 Spark를 기반으로 한 시각화 툴이며, Notebook을 웹 상에서 SQL문을 사용하여 데이터를 시각화해서 보여줍니다.

▼ Spark/Kafka Connector 구성 후 카프카 연동 해당 토픽 정보 조회

▼ Spark/MySQL Connector 구성 후 연동 해당 테이블 데이터 조회

▼ 원할한 Spark 사용을 위해 Zepellin 구축 후 스파크와 연동

pySpark ( Postgresql to MariaDB ) (0)	2023.03.14
pySpark( File(csv) to Postgresql ) (0)	2023.03.14
pySpark ( MariaDB to Hadoop ) (0)	2023.03.14
Spark Producer(Hadoop to Kafka) (0)	2023.03.14
Spark consumer(Kafka to Hadoop) (0)	2023.02.16

#DataEngineer #BigData 및 ETL 관련 자료 공유

DEV_BIGDATA