본문 바로가기

Biusiness Insight/Data Science

데이터 분석 수명주기 vs. 데이터 수명주기 (life-cycle)

반응형

데이터 분석은 통계에 뿌리를 두고 있다. 통계는 그 자체로 꽤 오랜 역사를 가지고 있다. 고고학자들은 피라미드의 건설로 고대 이집트의 통계학이 시작되었다고 일컫는다. 고대 이집트인들은 데이터 정리의 달인이었다. 현재 스프레드 시트와 체크리스트의 가장 초기 모습으로 볼 수 있는 파피리(papyri, 종이와 같은 재료)에 계산과 이론을 문서화 했다.

 

데이터는 생성(created), 사용(consumed), 테스트(tested), 처리(processed) 및 재사용(reused)되는 여러 단계를 거친다. 데이터 분석 수명 주기는 전문가들 사이에는 잘 알려져 있지만, 정의된 구조는 없다. 모든 데이터 분석 전문가가 일관되게 동일 아키텍처를 따르지는 않지만, 모든 데이터 분석 프로세스에는 몇가지 기본 요소가 있다.

 

데이터 분석 수명주기 (Data Analysis Life Cycle)

  1. 질문 (Ask) : 비즈니스 문제/목표/질문
  2. 준비 (Prepare) : 데이터 생성, 수집, 저장 및 관리
  3. 처리 (Process) : 데이터 정리/무결성
  4. 분석 (Analyze) : 데이터 탐색, 시각화 및 분석
  5. 공유 (Share) : 결과 공유(소통) 및 해석
  6. 실행 (Act) : 문제 해결을 위한 인사이트 도출/적용

데이터 분석 프로세스 (출처: 구글 데이터 분석 인증)

 

Dell EMC's 데이터 분석 수명주기 (by David Dietrich)

  1. 탐 (Discovery)
  2. 데이터 전처리 (Pre-processing data)
  3. 모델 계획, 방법론 수립 (Model planning)
  4. 모델 빌딩 (Model building)
  5. 결과 전달 (Communicate results)
  6. 운영化 (Operationalize)

데이비드 디트리히가 만든 EMC의 데이터 분석 수명주기는 실제 프로젝트 주기의 특성을 반영하며, 정적인 마일스톤이 아니다. 각 단계는 연결되어 다음 단계로 이어지고 반복된다. 분석가는 주요 질문을 통해 팀이 각 단계에서 충분한 시간을 투자했는지, 데이터가 준비되기 전에 모델링을 시작하지 않았는지 확인할 수 있다.

프로그램 기반의 데이터 분석 수명 주기와는 약간 다르지만, 핵심 아이디어는 첫번째 단계에서 질문을 발견하는데 관심을 두고, 데이터를 분석하고 사용하려면 먼저 준비를 해야 한다는 것이다. 그런 다음 결과를 공유하고 실행한다. (참고)

EMC의 데이터 분석 수명주기

 

SAS의 반복 수명주기

  1. 질문 (Ask)
  2. 준비 (Prepare)
  3. 탐색 (Explorer)
  4. 모델 (Model)
  5. 구 (Implement)
  6. 실행 (Act)
  7. 평가 (Evaluate)

SAS의 모델은 모델의 주기적 특성을 강조하며, life cycle 7단계로 구성되어 있다. 다른 수명주기와 다른 점은, 분석가들이 솔루션을 평가하고 잠재적으로 다시 질문 단계로 돌아갈 수 있도록 설계된 Act(실행) 단계 이후의 Evaluate(평가) 단계를 포함한다는 점이다. (참고)

SAS의 분석 수명주기

 

프로젝트 기반 데이터 분석 수명주기 (by Vignesh Prajapati)

  1. 문제 식별 (Identifying the problem)
  2. 데이터 요구사항 설계 (Designing data requirements)
  3. 데이터 전처리 (Pre-processing data)
  4. 데이터 분석 수행 (Performing data analysis)
  5. 데이터 시각화 (Visualizing data)

Vignesh Prajapati가 개발한 데이터 분석 프로젝트 수명 주기는  6번째 단계인 Act(실행) 단계를 포함하지 않는다. 문제를 파악하고 분석 전에 데이터를 준비 및 처리하는 것으로 시작해서, 데이터 시각화로 끝난다. (참고)

프로젝트 기반 데이터 분석 수명주

 

빅 데이터 분석 수명주기 (by Thomas Erl, Wajid Khattak, Paul Buller)

  1. 비즈니스 문제 진단 (Business case evaluation)
  2. 데이터 식별 (Data identification)
  3. 데이터 수집 및 필터링 (Data acquisition and filtering)
  4. 데이터 추출 (Data extraction)
  5. 데이터 유효성 검사 및 처리 (Data validation and cleaning)
  6. 데이터 수집 및 확인 (Data aggregation and representation)
  7. 데이터 분석 (Data analysis)
  8. 데이터 시각화 (Data visualization)
  9. 분석결과 활용 (Utilization of analysis results)

빅 데이터 기본 원리(Big Data Fundamentals: Concepts, Drivers & Techniques) 책에서 제안된 빅데이터 분석 수명주기는 9단계로 앞서 소개한 수명주기보다 3~4단계가 더 많다. 그러나 준비 및 처리 단계를 더 세분화한 것으로, 분석 단계 전에 데이터를 수집, 준비 및 정리하는 데 필요한 개별 작업을 강조한다. (참고)

빅데이터 분석 수명 주기 (Big Data Fundamentals)

 

데이터 수명주기 (Data life cycle)

데이터 수명주기(Plan, Capture, Manage, Analyze, Archive, and Destroy)를 데이터 분석 수명주기(Ask, Prepare, Process, Analyze, Share, and Act)와 혼동하지 말것.

  • 계획 (Plan) : 필요한 데이터의 종류, 관리 방법, 책임자를 결정
  • 수집 (Capture) : 다양한 소스에서 데이터를 수집
  • 관리 (Manage) : 데이터를 관리하고 유지, 저장 방법/저장 위치 및 저장에 사용되는 도구를 결정하는 작업 포함
  • 분석 (Analyze) : 데이터를 사용하여 문제를 해결하고, 의사결정을 내리고, 비즈니스 목표를 지원
  • 보관 (Archive) : 향후 참조를 위해 관련 데이터 장기 저장
  • 파기 (Destroy) : 저장소에서 데이터를 제거하고 데이터의 모든 공유/복사본을 삭제

데이터 수명 주기는 데이터 관리 방법에 대한 일반적 또는 공통 프레임워크를 제공한다. 정부, 금융 및 교육기관 데이터는 수명 주기를 약간 다르게 관리한다. (이하 아래 참조)

데이터 수명 주기 (Data life cycle)

 

미국 야생동물보호국(U.S. Fish & Wildlife Service)의 데이터 수명주기

  • 계획 (Plan)
  • 획득 (Acquire)
  • 유지 (Maintain)
  • 접근 (Access)
  • 평가 (Evaluate)
  • 보관 (Archive)

참고 : https://www.fws.gov/data/life-cycle

데이터 관리 수명주기 (U.S. Fish & Wildlife Service)

 

미국 지질조사국(USGS)의 데이터 수명주기

  • 계획 (Plan)
  • 획득 (Acquire)
  • 처리 (Process)
  • 분석 (Analyze) 
  • 보존 (Preserve)
  • 게시/공유 (Publish/Share)

수명 주기의 각 단계에서 아래의 작업도 교차로 수행함.

  • 설명 : 메타데이터 및 설명서 (Describe : metadata and documentation)
  • 품질 관리 (Manage Quality)
  • 백업 및 보안 (Backup and Secure)

참고 : https://www.usgs.gov/data-management/data-lifecycle

데이터 수명주기 모델 (USGS)

 

금융 기관 데이터 수명주기

  • 수집 (Capture)
  • 인증 (Qualify)
  • 변환 (Transform)
  • 활용 (Utilize)
  • 보고 (Report)
  • 보관 (Archive)
  • 제거 (Purge)

참고 : https://sfmagazine.com/articles/2018/july/the-data-life-cycle/?psso=true

금융기관 데이터 수명 주기

 

하버드 경영대학(HBS)의 데이터 수명주기 8단계

  • 생성 (Generation)
  • 수집 (Collection)
  • 처리 (Processing)
  • 저장 (Storage)
  • 관리 (Management)
  • 분석 (Analysis)
  • 시각화 (Visualization)
  • 해석 (Interpretation)

HBS의 데이터 수명주기 8단계 - 참조 : https://online.hbs.edu/blog/post/data-life-cycle

데이터 수명 주기 (HBS)

 

데이터 수명 주기의 중요성을 이해하면 데이터 분석가로 성공할 수 있다. 데이터 수명 주기의 개별 단계는 회사마다, 업종 또는 부문마다 다르다.

  • 정부기관 : 과거/기록 데이터(Historical Data)는 미국 어류 및 야생동물보호국과 USGS 모두 중요하므로, 데이터의 보관 및 백업에 중점을 둔다.
  • 교육기관 : HBS의 관심사는 연구 및 교육이다. 따라서 데이터 수명 주기에 시각화 및 해석이 포함되며, 데이터 분석 수명 주기와 연관이 깊다. HBS 데이터 수명 주기는 또한 데이터를 삭제하거나 폐기하는 단계가 없다.
  • 금융기관 : 이와 대조적으로 금융 데이터 수명 주기는 보관 및 삭제 단계를 명확히 구분한다.

요약하면, 데이터 수명 주기는 다양하지만 데이터 관리 원칙은 범용적이다. 데이터가 정확하고 안전하며 조직의 요구사항을 충족할 수 있도록 데이터 처리 방법을 관리한다.

 

(출처 : 구글 데이터 분석 인증, 코세라)

 

반응형