Hadoop/Spark

[Spark] Spark & Zeppelin

DEV_YUN 2022. 6. 21. 15:13

 

 

개발서버에 SparkZeppelin을 구축하였습니다.

 

 

Apache Spark는 오픈소스이며, 빅데이터를 분석하는 오픈 소스 병렬 처리 프레임워크입니다.

Spark는 In-memory의 연산을 통해 처리 성능을 향상시켜서 대량의 데이터를 처리하므로 기존의 디스크 기반 대체 방법보다 빠릅니다.

 

 

Zeppelin은 Spark를 기반으로 한 시각화 툴이며, Notebook을 웹 상에서 SQL문을 사용하여 데이터를 시각화해서 보여줍니다.

 

 

▼ Spark/Kafka Connector 구성 후 카프카 연동 해당 토픽 정보 조회

 

 

 

▼ Spark/MySQL Connector 구성 후 연동 해당 테이블 데이터 조회

 

 

 

원할한 Spark 사용을 위해 Zepellin 구축 후 스파크와 연동

 

 

'Hadoop > Spark' 카테고리의 다른 글

pySpark ( Postgresql to MariaDB )  (0) 2023.03.14
pySpark( File(csv) to Postgresql )  (0) 2023.03.14
pySpark ( MariaDB to Hadoop )  (0) 2023.03.14
Spark Producer(Hadoop to Kafka)  (0) 2023.03.14
Spark consumer(Kafka to Hadoop)  (0) 2023.02.16