AWS

[AWS] Athena란? Athena, Redshift, EMR 비교

베이글러 2024. 9. 27. 16:32
728x90
반응형

Athena 란?


Amazon Athena는 표준 SQL을 사용하여 Amazon S3(Amazon Simple Storage Service)에 있는 데이터를 직접 간편하게 분석할 수 있는 대화형 쿼리 서비스이다.

Amazon Athena의 Athena SQL은 서버리스 서비스이므로 설정하거나 관리할 인프라가 없으며 실행한 쿼리에 대해서만 비용을 지불하면 된다. 비용은 S3에서 스캔하는 데이터 1TB당 5 달러 정도로 비용 측에서도 이점이 존재한다.

Athena는 자동으로 확장되어 쿼리를 병렬로 실행하여 대규모 데이터 세트과 복잡한 쿼리에서도 빠르게 결과를 얻을 수 있다.

 

 

Athena는 크게 Presto & HIVE 기반으로 적용되어 있다.

Presto는 인 메모리 분석 쿼리 엔진으로 ANSI-SQL이 호환되고, 또한 Hive는 DDL 관련 기능을 처리하는 것을 담당하여 복잡한 데이터 타입, 여러 포맷, 데이터 파티셔닝, 테이블 생성 등과 관련된 부분을 담당한다.


Athena 와 S3 서비스 통합

▶ Athena는 Amazon S3에서 데이터에 대한 지속적 메타데이터 스토어를 제공하는 AWS Glue Data Catalog와 통합되어,

Athena에서 테이블과 쿼리 데이터를 생성하고 AWS Glue의 ETL 및 데이터 검색 기능을 통합할 수 있다.


Athena  vs  EMR  vs  Redshift

Athena

- Presto 기반 쿼리 서비스

- 서버리스

- S3에 존재하는 데이터에 대해 바로 실행

- 쿼리 수행에 따른 과금

-  DDL 은 Apache HIVE 기반

 

EMR (Elastic Map Reduce)

- 데이터 처리 프레임워크

- SQL 쿼리 외에 ML, 그래프 분석 등 다양한 작업 수행 가능

- 데이터가 반드시 S3 에 있을 필요는 없음

- S3 데이터에 대한 쿼리를 실행하기 위해서는 Athena 사용해야 함

- 서버 클러스터가 존재하여 클러스터 시간당 과금

 

Redshift  

- 데이터 웨어하우스

- 복잡한 SQL 에 대해 빠른 성능

- 정형 데이터에 최적화

- 다양한 소스의 데이터를 하나의 공통 형식으로 취합하여 보관

 


 

반응형

'AWS' 카테고리의 다른 글

[AWS] CLI란? AWS Command Line Interface 알아보기  (0) 2024.10.21
[AWS] MWAA 시작하기  (5) 2024.09.26