민프

[AI | ML][DATA] 데이터베이스(Database)데이터 웨어하우스(Data Warehouse), 데이터 레이크(Data Lake), 데이터 마트(Data Mart)의 차이점을 알아보자 본문

인공지능/[AI | ML]

[AI | ML][DATA] 데이터베이스(Database)데이터 웨어하우스(Data Warehouse), 데이터 레이크(Data Lake), 데이터 마트(Data Mart)의 차이점을 알아보자

민프야 2025. 7. 27. 16:59

회사 프로젝트에서 AI 학습용 데이터를 수집하고 가공하는 과정에서 "데이터 저장소를 어떻게 구성하는가?"에 대한 생각을 하는데 그때마다 헷갈리는 용어가 있어서 정리해보려고 합니다.

 

  • Database
  • Data Warehouse
  • Data Lake
  • Data Mart

오늘은 이 4가지 개념을 쉽게 정리해보겠습니다.

 


1.  데이터 베이스(Database)

운영 데이터를 저장하는 곳
예: 주문 내역, 고객 정보, 발주 기록 등
  • 일반적으로 RDS(MySQL, PostgreSQL 등)를 의미
  • OLTP 중심 (Online Transaction Processing)
  • 실시간 CRUD(Create, Read, Update, Delete) 처리에 최적화
  • AI 학습보다는 운영 중심
사용 목적: 서비스 운영  
예시: 주문 1건이 발생할 때 DB에 바로 기록
구조: 정형 데이터 (Schema 기반)

2.  데이터 웨어하우스 (Data Warehouse)

분석용 데이터를 정제하여 저장하는 공간
예: 최근 6개월 주문량, 요일별 매출, 고객군별 통계
  • 정형 데이터를 구조화해서 저장
  • BI 리포팅, 통계 분석, 대시보드에 활용
  • 예시: AWS Redshift, Google BigQuery, Snowflake
  • ETL을 통해 가공된 데이터가 저장됨
사용 목적: 통계 분석, AI 학습용 Feature 추출  
예시: "월요일 2시 ~ 4시 사이 가장 많이 팔린 상품은?"
구조: 구조화된 테이블, 쿼리 최적화

3.  데이터 레이크 (Data Lake)

정제되지 않은 원시 데이터를 유연하게 저장하는 공간
예: 로그 데이터, 센서 데이터, 이미지, CSV, JSON 등

 

  • 비정형/반정형 데이터도 저장 가능
  • 주로 ELT 구조와 함께 사용됨
  • 저장소 예: AWS S3, GCP Cloud Storage, Hadoop, Azure Data Lake
  • AI/ML을 위한 원시 로그 저장소 역할
사용 목적: 대규모 비정형 원시 데이터 저장  
예시: 판매 로그, 공공 데이터, 날씨 정보
구조: No Schema (CSV, JSON, 이미지 등 자유롭게 저장)

4.  데이터 마트 (Data Mart)

특정 부서나 목적에 최적화된 소규모 분석 DB
  • Data Warehouse의 하위 개념
  • 예: 마케팅팀 전용 마트, 점주용 매장 분석 마트
  • 사용자가 자주 쓰는 데이터만 가공해서 저장
사용 목적: 특정 목적의 빠른 조회  
예시: "VIP 고객의 재방문율 리포트"
구조: 테마별로 가볍고 빠르게 가공됨

5. 결론

 

  • Database: 운영 중심
  • Data Warehouse: 분석 중심
  • Data Lake: AI/ML 중심
  • Data Mart: 부서별 최적화

제가 하고 있는 AI/ML 프로젝트에서는 Data Lake를 체택하는게 맞는 것 같습니다. 

다음엔 ELT 관련 아키텍쳐를 만들어봐야겠습니다.


참고링크

https://aws.amazon.com/ko/compare/the-difference-between-a-data-warehouse-data-lake-and-data-mart/

 

데이터 레이크, 데이터 웨어하우스, 데이터 마트 비교 - 클라우드 스토리지 솔루션 간의 차이점 -

대부분의 대규모 조직은 스토리지 인프라에서 데이터 레이크, 웨어하우스, 마트를 조합해 사용합니다. 일반적으로 모든 데이터는 데이터 레이크에 수집된 후, 다양한 사용 사례에 따라 서로 다

aws.amazon.com

https://biviz.ai/blog/read/?id=179

 

데이터 웨어하우스 VS 데이터 레이크, 뭐가 다를까?

 

biviz.ai

https://www.sqlshack.com/an-overview-of-etl-and-elt-architecture/

 

An overview of ETL and ELT architecture

This article provides an understanding of the architectures of ETL and ELT in a data warehouse.

www.sqlshack.com

https://dzone.com/articles/what-is-elt-1

 

Comments