본문 바로가기

이론

[ADsP 2과목 요점 정리]

2-1. 데이터 분석 기획의 이해

 

2-1-1. 분석기획 방향성 도출

분석 기획 ?

실제 분석 수행하기에 앞서 과제를 정의하고 의도했던 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업

 

분석 대상(What)과 방법(How)

Optimization(Known, Known), Insight(Un-known, Known), Solution(Known, Un-known), Discovery(Un-known, Un-known)

 

분석 기획시 고려사항

- 가용 데이터에 대한 고려, 데이터 확보가 우선적, 유형에 따라 적용 가능한 솔루션 및 분석 방법이 다르기에 유형에 대한 분석이 선행적으로 이루어져야 함.

- 가치가 창출될 수 있는 적절한 활용방안과 유즈케이스 탐색 필요

- 장애요소들에 대한 사전계획 수립이 필요

 

2-1-2. 분석 방법론

분석 방법론 ?

효과적으로 기업 내에 정착하기 위해서는 체계화한 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적

절차, 방법, 도구와 기법, 템플릿과 산출물로 구성되어 어느 정도의 지식만 있으면 활용이 가능해야 함.

 

기업의 합리적 의사결정을 막는 장애요소

고정관념, 편향된 생각, 프레이밍 효과(문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상)

 

빅데이터 분석 방법론의 구성

단계, 태스크, 스탭, 5단계로 이루어짐.

분석 기획->데이터 준비->데이터 분석->시스템 구현->평가 및 전개

1) 분석 기획 : 비지니스 이해 및 범위 설정, 프로젝트 정의 및 계획 수립, 프로젝트 위험계획 수립 (위험 : 회피, 수용, 전이, 완화)

2) 데이터 준비 : 필요 데이터 정의, 데이터 스토어 설계,데이터 수집 및 정합성 점검

3) 데이터 분석 : 분석용 데이터 준비, 텍스트 분석, 탐색적 분석, 모델링, 모델 평가 및 검증

4) 시스템 구현 : 설계 및 구현, 시스템 테스트 및 운영

5) 평가 및 전개 : 모델 발전 계획 수립, 프로젝트 평가 및 보고

 

방법론의 적용 업무의 특성에 따른 모델

1) 폭포수 모델 : 단계를 순차적으로 진행하는 방법, 이전 단계가 완료되어야 다음 단계 진행, 문제가 발견될 시 피드백 과정 수행

2) 프로토타입 모델 : 폭포수 모델의 단점 보완하기 위해 점진적으로 시스템 개발해 나가는 접근 방법, 고객의 요구를 완전히 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 사용자 제공, 시험 후 사용자의 요구를 분석하거나 요구 정당성을 점검, 성능 평가하여 그 결과를 통한 개선 작업을 시행하는 모델

3) 나선형 모델 : 반복을 통해 점증적으로 개발하는 방법, 처음 시도하는 프로젝트 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있음.

 

KDD 분석 방법론

데이터셋 선택 -> 데이터 전처리 -> 데이터 변환 -> 데이터 마이닝->데이터 마이닝 결과 평가

데이터셋 선택 : 비지니스 도메인에 대한 이해, 프로젝트 목표 설정이 필수, 목표데이터 구성해 분석에 활용

데이터 전처리 : 데이터셋에 포함된 잡음, 이상치, 결측치를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리해 정제함.

데이터 변환 : 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 축소를 축소, 학습용/검증용 데이터로 분리

 

CRISP-DM 분석 방법론

계층적 프로세스 모델로써 4개 레벨로 구성됨.

단계, 일반화 태스크, 세분화 태스크, 프로세스 실행

 

CRISP-DM의 프로세스

프로세스는 6단계로 구성됨. 단방향으로 구성되지 않고 단계 간 피드백을 통해 완성도를 높임.

Business understanding -> Data Understanding -> Data Preparation -> Modeling -> Evaluation -> Deployment

- 업무 이해 : 프로젝트 목적과 요구사항 이해, 데이터 분석을 위한 문제 정의 (업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립)

- 데이터 이해 : 데이터 수집, 속성 이해, 인사이트 발견 (초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인)

- 데이터 준비 : 분석기버에 적합한 데이터 편성 (분석용 데이터셋 선택, 데이터 정제, 편성, 통합, 포맷팅)

- 모델링 : 다양한 모델링 기법과 알고리즘 선택, 파라미터를 최적화해 나가는 단계, 과적합 문제 확인 (모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가)

- 평가 : 프로젝트 목적에 부합하는지 평가 (분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가)

- 전개 : 모델링과 평가 단계를 통해 완성된 모델을 실 업무에 적용하기 위한 계획 수립, 유지보수 계획 마련 (전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 리뷰)

KDD CRISP-DM
분석대상 비지니스 이해 업무 이해
데이터셋 선택 데이터 이해
데이터셋 전처리  
데이터셋 변환 데이터 준비
데이터 마이닝 모델링
데이터 마이닝 결과 평가 평가
데이터 마이닝 활용 전개

 

2-1-3. 분석 과제 발굴

분석과제 발굴 방법론

풀어야 할 다양한 문제를 데이터 분석 문제로 변환한 후 관계자들이 이해하고 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출

- 하향식 접근(Top-Down) 방법 : 문제가 주어진 상태에서 답을 구하는 방식, 현황 분석을 통해 문제 탐색부터 시작, 분석적으로 사물을 인식하는 Why 관점

문제 탐색(가치에 중점) -> 문제 정의 -> 해결방안 탐색 -> 다탕성 검토

문제 탐색 : 비지니스 기반 문제 탐색, 분석 기회 발굴의 범위 확장, 외부 참조 모델 기반 문제 탐색, 분석 유즈 케이스

문제 정의 : 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의

해결방안 탐색 : 과제를 해결하는 방안에 대해 사전 검토

타당성 검토 : 경제적, 데이터, 기술적 

 

비지니스 모델 기반 문제 탐색

기업 내, 외부 환경을 포괄하고 있는 비지니스 모델을 활용해 비즈니스 모델 캔버스의 9가지 블록을 단순화하여 업무, 제품, 고객 단위로 문제 발굴하고 이를 관리하는 규제와 감사, 지원 인프라 영역에 대한 기회를 추가로 도출하는 작업 수행

 

- 상향식 접근(Bottom-Up) 방법 : 기업에서 보유하고 있는 다양한 원천 데이터로부터 분석을 통해 통찰력과 지식을 얻음., 사물을 있는 그대로 인식하는 What의 관점, 객관적으로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동으로 옮김으로써 대상을 더 잘 이해하는 방식, 비지도 학습, 다량의 데이터를 통해 왜 그러한 일이 발생하는지 역으로 추적하며 문제를 도출하거나 재정의함.

 

프로토타이핑 접근법 : 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해나가는 방법

 

분석 과제 정의서 : 분석별로 필요한 소스 데이터, 분석 방법, 데이터 입수 및 분석 난이도, 분석 수행주기, 분석결과에 대한 검증 오너십, 상세 분석 과정 등을 정의함.

 

- 디자인 사고(Design Thinking) : 상향식 접근, 하향식 접근 방식의 수렴단계를 반복적으로 수행하는 식의 상호 보완적인 동적 환경을 통해 분석의 가치를 높일 수 있는 최적의 의사결정 방식

 

2-1-4. 분석 프로젝트 관리 방안

분석 과제 관리를 위한 5가지 주요 영역 : 범위, 일정, 품질, 리스크, 의사소통

- Data Size : 분석하고자하는 데이터의 양 고려한 관리 방안 수립 필요

- Data Complexity : BI 프로젝트처럼 정형 데이터가 분석 마트로 구성되어 있는 상태에서 분석하는 것과 달리 비정형 데이터 및 다양한 시스템에 산재되어 있는 원천 데이터를 통합하는 프로젝트는 잘 적용될 수 있는 모델 선정에 대한 사전 고려 필요

- Speed : 시나리오 측면에서의 속도 고려, 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 함. 

- Analytic Complexity : 해석이 가능하면서도 정확도를 올릴 수 있는 최적모델 찾아야 함.

- Accuracy & Precision : 모델과 실제 값 사이의 차이가 적음, 편차의 수준으로 일관적으로 동일한 결과를 제시함.

 

분석 프로젝트 관리 방안

범위, 시간, 원가, 품질, 통합, 조달, 자원, 리스크, 의사소통, 이해관계자

 

2-2. 분석 마스터 플랜

2-2-1. 마스터 플랜 수립 프레임 워크

전략적 중요도, 비즈니스 성과 및 ROI, 분석 과제의 실행 용이성 등 다양한 기준을 고려해 적용 우선순위를 설정함.

업무 내재화 적용 수준, 분석데이터 적용 수준, 기술적용 수준 등 분석 적용 범위 및 방식에 대해서 종합적으로 고려해 데이터 분석 구현을 위한 로드맵을 수립해야 함.

ISP (Information Strategy Planning) : 정보기술 또는 정보시스템을 전략적으로 활용하기 위해 조직 내, 외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차임.

분석 마스터 플랜 : 일반적인 ISP 방법론을 활용하되 데이터 분석 기획의 특성을 고려하여 수행하고 기업에서 필요한 데이터 분석 과제를 빠짐없이 도출한 후 과제의 우선순위를 결정하고 단기 및 중, 장기로 나누어 계획을 수립함.

 

일반적인 IT 프로젝트 우선순위 평가 예시

1) 전략 중요도 

- 전략적 필요성 

- 시급성 

2) 실행 용이성

- 투자용이성

- 기술용이성

 

ROI 관점에서 빅데이터의 핵심 특징

3V (Volume, Variety, Velocity) : 투자 비용 요소, 난이도(데이터 획득/저장/가공비용, 분석 적용 비용, 분석 수준)

4V (Value) : 비즈니스 효과, 시급성 (전략적 중요도, 목표가치)

 

단계적 구현 로드맵

데이터 분석체계 도입(분석기회 발굴 및 마스터 플랜 분석 과제 정의 수립) -> 데이터 분석 유효성 검증(분석 알고리즘 및 분석 과제 아키텍처 설계, Pilot 수행) -> 데이터 분석 확산 및 고도화(업무 프로세스 내재화를 위한 Process Innovation 관리, 빅데이터 분석 활용 시스템 구축, 유관시스템 고도화)

 

2-2-2. 분석 거버넌스 체계 수립

거버넌스 체계

분석 기획 및 관리를 수행하는 조직, 과제 기획 및 운영 프로세스, 분석 관련 시스템, 데이터, 분석 관련 교육 및 마인드 육성 체계

 

데이터 분석 수준진단

분석 준비도(분석 업무, 분석 인력 및 조직, 분석 기법, 분석 데이터, 분석 문화, 분석 인프라)

분석 성숙도(도입, 활용, 확산, 최적화, 비즈니스, 조직 및 역량, IT), CMMI 모델

 

분석 관점에서의 사분면 분석

정착형 (준비도 낮음, 성숙도 높음), 확산형 (준비도 높음, 성숙도 높음), 준비형 (준비도 낮음, 성숙도 낮음), 도입형 (준비도 높음, 성숙도 낮음)

 

분석 지원 인프라 방안 수립

개별 시스템 : 시스템간 자체적인 데이터 교환, 독립적인 데이터 관리, 확장시 시스템간 인터페이스 폭증

플랫폼 : 중앙집중적 데이터 관리, 분석 플랫폼을 활용한 공동기능 활용, 시스템간 인터페이스 최소화

- 광의의 분석 플랫폼 : 분석 서비스 제공 엔진, 분석 어플리케이션, 분석 서비스 제공 API

- 협의의 분석 플랫폼 : 데이터 처리 Framework, 분석 엔진, 분석 라이브러리

 

데이터 거버넌스

전사 차원의 모든 데이터에 대해 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리체계를 수립하고 운영을 위한 프레임워크 및 저장소를 구축하는 것

마스터 데이터, 메타 데이터, 데이터 사전은 중요한 관리 대상

데이터의 가용성, 유용성, 통합성, 보안성, 안전성 확보

 

데이터 거버넌스 구성요소

원칙, 조직, 프로세스

 

데이터 거버넌스 체계

1) 데이터 표준화 : 데이터 표준 용어 설정, 명명 규칙 수립, 메타 데이터 구축, 데이터 사전 구축 등의 업무로 구성

2) 데이터 관리 체계 : 데이터 정합성 및 활용의 효율성을 위해 표준 데이터를 포함한 메타 데이터와 데이터 사전의 관리 원칙을 수립

3) 데이터 저장소 관리 : 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성, 데이터 구조 변경에 따른 사전 영향 평가도 수행되어야 효율적인 활용 가능

4) 표준화 활동 : 데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링 실시, 변화 관리 및 주기적인 교육 진행, 실용성 높여야 함.

 

데이터 조직 및 인력방안 수립

집중구조 : 전사 분석업무를 별도의 분석 전담 조직에서 담당, 전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능, 현업 업무부서의 분석업무와 이중화/이원화 가능성 높음

기능구조 : 일반적인 분석 수행 구조, 별도 분석조직이 없고 해당 업무 부서에서 분석 수행, 전사적 핵심분석이 어려우며, 부서 현황 및 실적 통계 등 과거 실적에 국한된 분석 수행 가능성 높음.

분산구조 : 분석조직 인력들을 현업부서로 직접 배치하여 분석 업무 수행, 전사차원의 우선순위 수행, 분석결과에 따른 신속한 Action 가능, 베스트 프랙티스 공유 가능, 부서 분석업무와 역할 분담 명확히 해야함(-> 업무과다 이원화 가능성)