본문 바로가기
데이터 아키텍처

[데이터 아키텍처] DA 구축 예제 | 1. 개요 - 오픈 데이터 활용

by 박선생의 블로그 2024. 5. 14.

[데이터 아키텍처] DA 구축 예제 | 1. 개요 - 오픈 데이터 활용

     < 목차 >

1. 개요 - 오픈 데이터 활용

2. 현행 DB 준비 - 파일 업로드 (feat. 파이썬)

3. 리버스 모델링

4. 현행 논리 데이터 모델링

5. 현행 개념 데이터 모델링

6. 현행 모델 문제점 분석

7. 목표 개념 데이터 모델링

8. 목표 논리 데이터 모델링

9. 목표 물리 데이터 모델링

 

차세대 또는 시스템 개편 프로젝트에서 DA(데이터 아키텍트)로서 목표 시스템의 데이터 모델을 설계하고 데이터 이행 및 검증하는 전체의 과정을 경험하기는 쉽지 않다.

 

현행 시스템을 분석하여 문제점을 파악하고 개선 방안을 도출하며 신규 요건을 반영한 목표 데이터 모델을 설계하는 과정, 그리고 현행 DB에서 목표 DB로 데이터를 이행하는 과정, 데이터 이행이 정상적으로 되었는지를 검증하는 과정 등 설계에서 이행 및 검증까지 전체의 과정을 경험할 수 있는 경우는 그리 흔하지 않다.

 

실제 프로젝트는 규모도 크고 기간도 길고 인원도 많고 작업 범위도 넓기 때문에 업무 분장을 하여 일부분을 할당받아 진행하므로 전체를 경험하지 못한다.  아니면, 많은 프로젝트를 수행하여 쌓인 경험을 맞추어 전체를 이해해야 한다.

 

본 포스트에서는 소규모의 오픈 데이터로 현행 시스템을 구성하고 각각의 절차를 거쳐 목표 시스템을 구축하는 전체의 과정을 이해하는데 도움을 주고자 한다.

 

그럼 먼저, 대상 데이터를 선정해야 하는데 특정 기업이나 기관의 데이터는 보안상의 이유로 수집하기 어려우므로 오픈 데이터를 다운로드하여 진행하고자 한다.

 

대상 데이터는 공공데이터포털(data.go.kr)건강보험심사평가원_전국 병의원 및 약국현황페이지 하단의 주기성 과거 데이터 건강보험심사평가원_전국 병의원 및 약국 현황_20230331”을 클릭하여 아래 우측 화면의 전국 병의원 및 약국 현황 2023.03..zip” 파일을 다운로드하여 진행한다.

 

공공데이터포털에서의 관련 화면은 아래와 같다.

공공데이터포털 화면
공공데이터포털 화면

(출처)

※ 좌측 화면 - https://www.data.go.kr/data/15051059/fileData.do

우측 화면 - https://opendata.hira.or.kr/op/opc/selectOpenData.do?sno=11925&publDataTpCd=&searchCnd=&searchWrd=%EC%A0%84%EA%B5%AD&pageIndex=1

 

다운로드하여 받은 zip 파일의 압축 현황은 아래와 같다.

전국 병의원 및 약국 현황 2023.03..zip
전국 병의원 및 약국 현황 2023.03.zip

 

해당 압축 파일은 병원 및 약국 정보와 의료기관별 상세 정보로써 파일의 데이터 건수는 아래와 같다.

전국 병의원 및 약국 현황 2023.03 목록
전국 병의원 및 약국 현황 2023.03 목록

 

참고로, 본 문서는 공공데이터 포털에서 제공하는 엑셀 파일의 문제를 지적하고자 하는 것은 아니고 해당 엑셀 파일이 현행 시스템이라는 가정 하에 데이터 아키텍처 구축 과정을 설명하고자 해당 파일을 활용한다.

 

데이터 아키텍처를 구축하는 과정을 하나의 포스트에 담기에는 내용이 많으므로 연재 형태로 포스트를 작성하고자 한다.