Hadoop/Hive

Hive

희쨔응 2022. 10. 13. 14:10

Hive는 Hadoop echo system 중에서 데이터를 모델링하고 프로세싱하는 경우 가장 많이 사용하는 데이터 웨어하우징용 솔루션입니다.

RDB의 데이터베이스, 테이블과 같은 형태로 HDFS에 저장된 데이터의 구조를 정의하는 방법을 제공하며, 이 데이터를 대상으로 SQL과 유사한 HiveQL 쿼리를 이용하여 데이터를 조회하는 방법을 제공합니다.

현재 개발 서버에 구축 되어 있는 Hadoop과 연동하여 구축되었고 아래와 같이 테스트 완료 하였습니다.

 

Hiveserver2 web 화면
Hive 실행 화면
Table 생성
생성된 Table에 데이터 Insert
데이터 조회
Hadoop에서 해당 데이터 조회

 

 

Hive를 통한 csv Data 정규화 작업

해당 file을 업로드할 Table 생성 및 delimiter 정의
해당 file 경로 정의후 생성한 Table에 업로드
Beeline 실행 후 해당 Table 조회