Hadoop/Parquet

[Apache Parquet] Python 사용하여 Parquet 파일 데이터 확인

Minju Jeong 2023. 4. 11. 16:03

Step1. Parquet 파일이 있는 서버에 conda, python 설치

 

Step2. conda, python 실행

 

Step3. Parquet 파일 확인

# import lib
import pandas as pd
from pyarrow.parquet import ParquetDataset

# pandas로 path의 parquet파일 열기
pd.read_parquet('/path/test.parquet', engine='pyarrow', columns=['COL1'])

# pyarrow로 parquet파일 row count 확인
ds = ParquetDataset('/path/test.parquet', use_legacy_dataset=False)
nrows = sum(p.count_rows() for p in ds.fragments)
print(nrows)

'Hadoop > Parquet' 카테고리의 다른 글

[Apache Parquet] 컬럼 기반 압축 파일 Parquet  (0) 2022.12.19