Rei’s Tech diary

Chapter 5. 데이터 전환 본문

정보처리기사/[3] 데이터베이스 구축

Chapter 5. 데이터 전환

Reiger 2022. 3. 20. 23:47

[1] 데이터 전환 기술

#. 초기 데이터 구축 전략

1. 구축 전략 수립

2. 대상 파악

3. 범위 확정

4. 고려사항 도출

 

#. ETL (Extraction, Transformation, Loading)

- ETL은 원천 시스템에서 데이터를 추출(Extraction)하여 변환(Transformation)작업을 거쳐 목적 시스템으로 적재(Loading)하는 프로세스다.

 

#. 파일 처리 기술

① 순차 파일

- 입력되는 데이터들을 논리적인 순서에 따라 물리적 연속 공간에 순차적으로 기록하는 방식

- 변동사항이 크지 않고 기간별로 일괄 처리를 주로 하는 경우에 적합

- 순차 접근이 가능한 자기 테이프에서 사용

 

② 색인 순차 파일

- 색인 순차 파일은 레코드들을 키값 순으로 정렬시켜 기록하고 레코드의 키 항목 색인을 구성하는 방식

- 순차처리와 랜덤 처리 모두 가능

- 색인을 이용한 순차적인 접근 방법을 제공하여 ISAM이라고 함

- 레코드 참조 시 색인 탐색 후 색인이 가리키는 포인터를 사용하여 직접 참조

 

③ 직접 파일

- 직접 파일은 파일을 구성하는 레코드를 특정 순서 없이 임의의 물리적 저장 공간에 기록하는 파일

- 랜덤 파일, DAM 파일이라고도 함

- 레코드는 해시 함수에 의해 계산된 물리적 주소를 통해 접근

 

[2] 데이터 전환 수행

 

 #. 데이터 전환 수행 계획 개념

- 데이터 전환 수행 계획은 데이터 전환을 위한 상세 설계, 전환 및 검증 프로그램 개발과 통합 전환을 수행하는 계획이다.

- 전환 단계에서는 업무 간 병렬 처리, 전환 시나리오에 따른 일관된 통제 및 관리, 주기적으로 데이터 전환 테스트를 반복하는 등 통합된 체게적 접근이 필요하다.

 

#. 데이터 전환 절차

- 현행(AS-IS) 시스템에서 목표(TO-BE) 시스템으로 전환을 위한 단계를 구분한다.

- 각 단계별 작업 내용과 사용되는 도구를 별도로 기록한다.

- 원천 데이터베이스의 데이터는 백업하여 스테이징 데이터베이스로 복구한 후 정비 및 변환 작업을 수행한다.

- 데이터 전환이 완료된 후 검증 단계에서는 스테이징 데이터베이스가 아닌 원천 데이터베이스와 비교하여 데이터 오류를 확인해야 한다.

 

#. 체크리스트

- 체크리스트는 전환 프로그램의 에러, 시간제약, 비즈니스 로직 변경, 긴급 상황 및 위험요인 대응을 위한 측정가능한 목록이다.

 

#. 체크 리스트 작성

- 수행 작업의 상세항목, 작업내역, 예정 시작/종료 시간, 작업자를 기재한다.

 

 

[3] 데이터 정제

 

#. 원천 데이터 품질 분석

- 필수 항복의 데이터가 모두 존재하는가?

- 데이터의 유형(문자형, 숫자형, 날짜형)이 정확하게 관리되고 있는가?

- 날짜의 경우 날짜로서 유효한 형태를 가지고 있는가?

- 금액의 경우 유효한 값의 범위인가?

- 코드 값이 정해진 범위에 속하는가?

- 모든 일자의 시점이 업무 규칙에 위배되지 않고 정확하게 설정되어 있는가?

- 업무 규칙에 위배되는 잘못도니 정보가 존재하는가?

- 잔액의 총합이 회계 정보와 동일한가?

- 보고서 값과 실제 데이터 값이 일치하는가?

 

#. 목적 데이터 품질 분석

- 특정 기준으로 분류된 데이터가 일치하는가?

- 보고서 항목 또는 통계 수치는 정확한가?

- 샘플링 한 목적데이터의 대상 항목이 모두 일치하는가?

- 특수한 관계가 있는 고객의 추출 데이터는 정확한가?