앎을 경계하기

[가짜연구소3기] Data Engineer

[가짜연구소 3기] 데이터 엔지니어링 - 21 Putting it all together

양갱맨 2021. 8. 25. 18:30

주제

ETL을 하나로 합치고 스케쥴러에 등록하는 과정에 대해 배웠다.


앞에서 Extract, Transformation, Load에 대해 배웠다.

이제 이 ETL을 하나로 합치는 과정에 대해 배운다.

ETL 작업을 하나의 함수로 캡슐화하는 것이 중요하다.

ETL 기능이 특정 시간에 실행되는지 확인하기 위해 Airflow를 사용한다.

Airflow는 DAG를 사용하여 스케쥴러를 구현한다.

schedule_interval의 인자는 다음의 크론 표현식으로 사용한다.


DAG 정의 파일

airflow의 pythonOperator를 사용하여 dag를 설정하고 etl 함수를 등록해준다.

set_upstreamset_downstream이 있을 수 있는데, set_upstream은 wait_for_this_task가 완료된 후 etl_task가 수행된다.

이 소스코드를 ~/airflow/dags/에 저장하면 Airflow UI에서 확인할 수 있다.