주제
ETL을 하나로 합치고 스케쥴러에 등록하는 과정에 대해 배웠다.
앞에서 Extract, Transformation, Load에 대해 배웠다.
이제 이 ETL을 하나로 합치는 과정에 대해 배운다.
ETL 작업을 하나의 함수로 캡슐화하는 것이 중요하다.
ETL 기능이 특정 시간에 실행되는지 확인하기 위해 Airflow를 사용한다.
Airflow는 DAG를 사용하여 스케쥴러를 구현한다.
schedule_interval
의 인자는 다음의 크론 표현식으로 사용한다.
DAG 정의 파일
airflow의 pythonOperator를 사용하여 dag를 설정하고 etl 함수를 등록해준다.
set_upstream
과 set_downstream
이 있을 수 있는데, set_upstream
은 wait_for_this_task가 완료된 후 etl_task가 수행된다.
이 소스코드를 ~/airflow/dags/
에 저장하면 Airflow UI에서 확인할 수 있다.
Uploaded by Notion2Tistory v1.1.0