본문 바로가기

Data

[Data] ETL 프로세스

데이터를 가공하여 가치를 창출하는 과정.
데이터 엔지니어링 분야에서 ETL 프로세스는 데이터를 수집, 변환, 적재하는 핵심 작업. 
ETL은 Extract(추출), Transform(변환), Load(적재)의 약자. 

여러 소스의 데이터를 일관된 단일 데이터 세트로 결합하여 데이터 웨어하우스, 데이터 레이크 또는 기타 대상 시스템에 로드.

즉, ETL을 정말 간단하게 정의 해보자면
“한 곳에 저장된 데이터를 필요에 의해 다른 곳으로 이동하는 것”

참고: 
https://itholic.github.io/etl/#google_vignette

 

[database] ETL이란?

ETL (Extract, Transform, Load)

itholic.github.io

 

+ 2025. 1. 10 추가

 

데이터 수집 인터페이스 : ETL 방식

ETL이란?
ETL(추출, 변환, 로드)은 여러 소스의 데이터를 일관된 단일 데이터 세트로 결합하여 

데이터 웨어하우스, 데이터 레이크 또는 기타 대상 시스템에 로드하는 오랫동안 사용된 데이터 통합 프로세스.

- 레거시 시스템에서 데이터 추출
- 데이터를 정리하여 데이터 품질 개선 및 일관성 확립
- 대상 데이터베이스에 데이터 로드

ETL 프로세스는 시작 시 더 많은 정의가 필요합니다. 

서로 다른 소스 시스템에서 통합할 수 있는 잠재적인 'Key'와 함께 추출을 위해 특정 데이터 포인트를 식별해야 합니다.

이 작업이 완료된 후에도 데이터 변환에 대한 비즈니스 규칙을 구성해야 합니다.

이 작업은 일반적으로 특정 유형의 데이터 분석에 대한 데이터 요구 사항에 종속될 수 있으며 이에 따라 데이터에 필요한 요약 수준이 결정됩니다.

ETL 작동 방식

추출 : 

ex. SQL 서버

변환 :
데이터를 필터링, 정제, 중복 제거, 유효성 검사 및 인증.
데이터 품질 및 규정 준수를 보장하기 위해 감사를 수행.
업계 또는 정부 규제 기관에서 관리하는 데이터를 제거, 암호화 또는 보호.
대상 데이터 웨어하우스의 스키마와 일치하도록 데이터를 테이블 또는 결합된 테이블로 포맷.

로드 :
마지막 단계인 로드에서는 변환된 데이터를 스테이징 영역에서 대상 데이터 웨어하우스로 이동.

ETL의 이점과 과제
ETL 솔루션은 데이터를 기타 저장소에 로드하기 전에 데이터 정제를 수행하여 품질을 개선.

시간이 많이 소요되는 배치 작업인 ETL은 업데이트 빈도가 낮은 소규모의 대상 데이터 저장소 생성에 자주 권장됨.

반면 ELT(추출, 로드, 변환), 변경 데이터 캡처(CDC) 및 데이터 가상화를 비롯한 다른 데이터 통합 방법은 점점 증가하는 변경 데이터 또는 실시간 데이터 스트림을 통합하는 데 사용됨.

참고 : https://www.ibm.com/kr-ko/topics/etl

 

ETL(추출, 변환, 로드)이란 무엇인가요? | IBM

ETL은 여러 소스에서 데이터 웨어하우스 또는 기타 통합 데이터 저장소로 데이터를 추출, 변환 및 로드하는 프로세스입니다.

www.ibm.com

 

'Data' 카테고리의 다른 글

[SVN] svn, Subversion  (1) 2024.11.07
[Data] Data Lake VS Data Mart VS Data Warehouse  (1) 2024.11.05