DE (2) 썸네일형 리스트형 [Kafka] Kafka란? - 분산 스트리밍 플랫폼 - Source 시스템은 Kafka로 메시지를 보내고 - Destination 시스템은 Kafka로부터 메시지를 받는다 - 확장성이 있고, 장애 허용 (fault tolerant)을 하며, 성능이 좋다 - 시스템간 의존성을 간접적으로 만든다 - 확장성: 새 시스템을 더할때마다 복잡도가 선형적으로 올라간다 - Kafka를 이용해 통신 프로토콜을 통합하기 쉽다 Kafka의 장점 - 확장성 - 하루에 1조개의 메시지를 처리할 수 있고, Petabyte의 데이터를 처리 가능 - 메시지 처리 속도 - 2MS - 가용성 (availability) - 클러스터 환경에서 작동 - 데이터 저장 성능 - 분산 처리, 내구성, 장애 허용 (fault tolerant) [Airflow] Apache Airflow(아파치 에어플로우) 기초, DAG, operator 1. Apache Airflow 소개 1.1 Batch Process란? 예약된 시간에 실행되는 프로세스 일회성(1회)도 가능하고, 주기적인 실행도 가능 ex. 이번 주 일요일 07:00에 1번 실행되는 프로세스 ex. 매주 일요일 07:00에 실행되는 프로세스 Batch Process를 AI 엔지니어가 알아야 하는 이유 모델을 주기적으로 학습시키는 경우 사용(Continuous Training) 주기적인 Batch Serving을 하는 경우 사용 그 외 개발에서 필요한 배치성 작업 Batch Process - Airflow 등장 전 대표적인 Batch Process 구축 방법 → Linux Crontab Linux Crontab의 문제 재실행 및 알람 : 파일을 실행하다 오류가 발생한 경우, 크론탭이 .. 이전 1 다음