성능에 대한 고려

NEXUS 2015.09.11 02:21 조회 수 : 22449

실질적으로 ETL이 시작 되면 데이터베이스 로드 단계가 가장 시간이 많이 소요 됩니다.

데이터 베이스는 자신에 역할(동시성, 무결성, 색인 , 커서등의 자원 유지)에 충실 하게 작동 할 것입니다.

운영 DB일 경우에 는 더욱 많은 이행 시간과 자원이 소요 됩니다. 따라서 더 나은 성능을 고려 한다면 다음과 같은 선택을 할 수 있습니다.

1. 다이렉트 접속하여 SQL 쿼리 수행

2. Data Dump 이관

3. 데이터 Bulk를 사용하여 이관

4. ETL 개발자에 의해 프로그램을 작성하여 이관 시점에 적용

5. 별도의 배치 Job을 만들어 크론 또는 스케줄러 프로그램을 사용하여 이관

그러나 위의 프로세스는 사람이 지속적으로 운영과 관리를 할 수 없으며 Fail Over에 따른 이슈해결에 많은 시간을 할애 해야 합니다.

위의 이행 방식을 좀더 전문화 시키기 위해선 데이터 통합 플랫폼을 구축 해야 합니다.

분석/설계, 매핑, ETL 소스 관리,ETL 표준화, 실 이행(초기/변경/보정), 스케줄 운영, HA , 병렬 ETL , 지리적 이슈에 대한 Scale out, 시스템 자원 관리 등 수행 예측 등에 대한 해결책을 마련해 놓아야 합니다.

ETL은 물리적인 거리와 분산 환경, GMT, 데이터 이관 속도 등 고급 ETL 확장에 대한 전문적인 설계를 고려해야 합니다.

쓰기 태그

InnoQuartz-ETL