Hadoop/Parquet
[Apache Parquet] Python 사용하여 Parquet 파일 데이터 확인
Minju Jeong
2023. 4. 11. 16:03
Step1. Parquet 파일이 있는 서버에 conda, python 설치
Step2. conda, python 실행
Step3. Parquet 파일 확인
# import lib
import pandas as pd
from pyarrow.parquet import ParquetDataset
# pandas로 path의 parquet파일 열기
pd.read_parquet('/path/test.parquet', engine='pyarrow', columns=['COL1'])
# pyarrow로 parquet파일 row count 확인
ds = ParquetDataset('/path/test.parquet', use_legacy_dataset=False)
nrows = sum(p.count_rows() for p in ds.fragments)
print(nrows)