- AI를 위해 설계된 최신 Python 데이터 프레임 라이브러리
- 비정형 데이터를 데이터 세트로 구성하고 로컬 머신에서 대규모로 Wrangle할 수 있도록 만들어짐
- AI 모델과 API 호출을 추상화하거나 숨기지 않고 포스트모던 데이터 스택에 통합
주요 특징
- Source of Truth 저장소
- S3, GCP, Azure, 그리고 로컬 파일 시스템에서 중복된 사본 없이 비정형 데이터를 처리함
- 멀티모달 데이터 지원: 이미지, 비디오, 텍스트, PDF, JSON, CSV, parquet 등
- 파일과 메타데이터를 영구적이고, 버전 관리되며, 컬럼 기반인 데이터셋으로 통합함
- Python 친화적인 데이터 파이프라인
- Python 객체와 객체 필드에 대해 작업함
- SQL이나 Spark 없이 내장된 병렬화와 메모리 외부 연산 기능
- 데이터 보강(Enrichment)과 처리
- 로컬 AI 모델과 LLM API를 사용하여 메타데이터 생성
- 메타데이터를 기준으로 필터링, 조인, 그룹화. 벡터 임베딩으로 검색
- 데이터셋을 Pytorch나 Tensorflow에 전달하거나 다시 저장소로 내보냄
- 효율성
- 병렬화, 메모리 외부 작업, 데이터 캐싱
- Python 객체 필드에 대한 벡터화된 연산: 합, 개수, 평균 등
- 최적화된 벡터 검색