Step1. Parquet 파일이 있는 서버에 conda, python 설치
Step2. conda, python 실행
Step3. Parquet 파일 확인
# import lib
import pandas as pd
from pyarrow.parquet import ParquetDataset
# pandas로 path의 parquet파일 열기
pd.read_parquet('/path/test.parquet', engine='pyarrow', columns=['COL1'])
# pyarrow로 parquet파일 row count 확인
ds = ParquetDataset('/path/test.parquet', use_legacy_dataset=False)
nrows = sum(p.count_rows() for p in ds.fragments)
print(nrows)
'Hadoop > Parquet' 카테고리의 다른 글
[Apache Parquet] 컬럼 기반 압축 파일 Parquet (0) | 2022.12.19 |
---|