본문 바로가기

728x90
반응형

dask

[Library] Dask 추가 정보 및 테스트 지난 포스트에 이어 Dask의 추가적인 특징 및 pandas aggregation과 간단히 비교한 내용을 올리고자 한다. [Library] Dask? Spark? 캐글을 진행하며 중용량(?) 데이터(약 16GB ~ 40GB)를 처리하게 되었다. 파일 포맷과 데이터 타입, 값 변환 등의 처리만으로는 부족하다 싶어 대용량 데이터 처리를 위한 도구를 모색하게 되었다. 대 sha-sha-sha.tistory.com 특징 1. 가상 데이터 프레임 pandas dataframe과 비슷한 기능을 제공하지만 모든 데이터가 메모리에 있는 것은 아님 → 하나 이상의 파일 또는 데이터베이스에 존재하는 채로 처리할 수 있는 기능 메모리 크기와 관계 없이 큰 csv 파일을 가상 데이터 프레임으로 로드 또는 비슷한 형식의 여러개.. 더보기
[Library] Dask? Spark? 캐글을 진행하며 중용량(?) 데이터(약 16GB ~ 40GB)를 처리하게 되었다. 파일 포맷과 데이터 타입, 값 변환 등의 처리만으로는 부족하다 싶어 대용량 데이터 처리를 위한 도구를 모색하게 되었다. 대용량 분석을 위해 spark를 많이 쓰고 pyspark를 제공하지만 로컬 분석 환경에서 사용하기에는 환경 구성에 시간을 들인 만큼의 효율이 나지 않을 수도 있다는 우려가 있었다. 또한 데이터 분석가의 필수 도구인 pandas와 numpy사용에 제약이 있다는 단점이 있다. 그렇게 적절한 도구가 없나 찾아 헤매던 중 dask를 알게 되었고 이를 비교한 포스터가 있어 변역하여 정리하고자 한다. https://medium.com/geekculture/dask-or-spark-a-comparison-for-dat.. 더보기

728x90
반응형