
1.데이터 분석 기획의 이해
1.1 분석 기획 방향성 도출
분석 기획이란, 실제 분석을 수행하기 전에 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업을 말한다. 즉, 어떤 목표를 달성하기 위해 어떠한 데이터를 가지고 어떤 방식으로 수행할 지에 대한 일련의 계획을 수립하는 작업이라고도 할 수 있다.
1.1.1 분석 기획의 특징
분석을 기획할 때 주의 사항은 데이터를 다루는 영역의 특성 때문에 IT 분야에 치중하는 현상이 발생할 수 있다는 점이다. 때문에 앞서 1장에서 본 3가지 영역에 대한 고른 역량과 시각이 요구된다. 분석 기획이라는 것이 해당 문제 영역에 대한 전문성 역량 및 수학/통계학적 지식을 활용한 분석 역량, 분석도구인 데이터 및 프로그래밍 기술 역량에 대한 균형 잡힌 시각을 가지고 방향성 및 계획을 수립해야 온전한 기획안을 만들 수 있기 때문이다. 분석기획은 크게 분석 주제 유형에 따라서, 목표시점에 따라서 접근하는 방법이 조금씩 다르다.
먼저 분석 주제 유형에 따라서 기획하는 방법을 살펴보자. 첫 번째로, 만약 해결할 문제를 알고 있고 분석 방법도 아는 경우라면, 개선을 통한 최적화의 형태로 분석하는 것이 바람직하다. 이와 달리, 만약 해결할 문제는 알지만 분석방법을 모르는 경우라면, 해당 분석 주제에 대한 솔루션을 찾아내는 방식의 분석으로 접근하는 것이 좋다. 세 번째로 분석 대상을 모르는 경우에는, 기존 분석 방식을 활용해 새로운 지식(통찰)을 도출 발견 접근법으로 분석 대상 자체를 새롭게 도출하는 식으로 접근할 수 있다. 마지막으로 분석 대상과 방법을 모두 모르는 경우라면, 발견을 통해서 한 단계씩 전진하는 방식으로 진행해야한다.

이번에는 목표시점별로 분석 기획방법을 알아보자. 먼저 과제 중심적으로 접근할 경우라면, 당면한 과제를 빠르게 해결해야하며, 이를 위해 과제를 해결하는 속도와 테스트가 빠르게 이뤄져야하며, 속도싸움이기 때문에 과제는 Quick-Win 방식으로 해결한다. Quick-Win 방식의 장점이 문제에 대해 명확하게 해결하는 방식에서는 유용하기 때문이다. 그리고 과제를 해결하는 식으로 접근하기 때문에, 단계별로 발생하는 문제를 해결하는 식으로 해결한다.
반대로 장기적인 마스터 플랜으로 분석기획을 한다면. 지속적인 분석 내제화를 위한 방식으로 접근해야한다. 또한 개별 과제는 지속적으로 데이터 분석 문화를 내재화하기 위해 전사적이고 장기적인 관점에서 분석과제를 도출및 과제를 수행하는 것이 좋다. 끝으로 중장기적으로는 분석 과제 정의 접근방식을 적용하는 것이 좋다.

위의 내용을 위해 분석가는 기존의 3가지 역량(IT, 분석, 비즈니스 컨설팅)과 리더쉽, 프로젝트 관리 역량까지 키워야 한다.

1.1.2 분석 기획 시 고려사항
이번에는 분석 기획을 할 때 고려해야하는 내용을 살펴보자. 분석 시 기본이 되는 데이터(가용한 데이터)에 대한 고려가 필요하다. 데이터가 존재한다 해도 아래 그림처럼 유형에 따라 분석 방법이 다르기 때문에 데이터 유형에 대한 분석이 선행되어야 하기 때문이다.

두번째로는 분석을 통해 가치가 창출될 수 있는 적절한 활용방안과 활용 가능한 유즈 케이스의 탐색이 필요하다. 이에 대해서는 기존에 잘 구현되어서 활용되고 있는 유사한 사례 및 솔루션을 최대한 활용하는 것이 좋으며, 분석 시 발생하는 장애요소들에 대한 사전 계획 수립이 필요하다. 장애요소에 대해 사전에 계획을 수립한다면, 정확도를 높이기 위한 기간과 투입리소스는 비용 상승으로 이어질 수 있는 효과를 가진다.뿐만 아니라 좋은 결과를 사용자가 이해하기 쉽도록 활용하는 방안도 수립하는 것이 좋다. 실제 환경에서 성능 문제가 발생할 수 있기 때문에 고려해야한다. 끝으로 조직의 역량으로 내재화하기 위해 충분하고 지속적인 교육 및 활용방안 등 변화관리를 고려해야한다.
1.2 분석 방법론
1.2.1 개요
분석 방법론을 설명하기 앞서 합리적 의사결정의 장애 요소를 먼저 알아보자. 합리적 의사결정을 방해하는 요소로는 고정관념 (Stereo type), 편향된 생각 (bias), 프레이밍 효과 (Framing Effect) 를 들 수 있다. 이 중 프레이밍 효과라는 것은, 문제의 표현 방식에 따라 동일한 사건이나 상황임에도 불구하고 개인의 판단이나 선택이 달라질 수 있는 현상을 의미한다.
데이터 분석을 효과적으로 정착하기 위해서는 체계적인 절차, 방법이 정리된 데이터분석 방법론이 필수적이다. 때문에, 일정 수준의 품질을 갖춘 산출물과 프로젝트의 성공 가능성을 확보, 제시할 수 있어야 하며, 방법론은 상세한 절차, 방법, 도구와 기법, 템플렛과 산출물로 구성 지식만 있으면 활용이 가능하다.
분석 방법론은 크게 3개 계층으로 구성되며, 자세한 내용은 다음과 같다.
구성
|
설명
|
단위 프로세스
|
단계
|
분석방법론의 최상위 계층이며, 완성된 단계별 산출물이 생성된다.
|
단계별 완료 보고서 생성
|
태스크
|
단계를 구성하는 단위 활동으로 물리적, 논리적 품질 검토 대상이 된다.
|
보고서
|
스텝
|
기준선으로 관리되고, 버전관리로 통제된다.
|
입출력 자료 & 처리 및 도구
|

위의 내용에 대해 추가적인 내용들은 (4) 빅데이터 분석 방법론 참고하면 된다. 다음으로 분석 방법론의 생성 과정을 살펴보면 다음과 같다.
[생성 과정]
개인의 암묵지 → 형식화 → 조직의 형식지 → 체계화 → 방법론 → 내재화 → 개인의 암묵지

분석 방법론의 모델로는 크게 3가지가 있다.
모델
|
설명
|
폭포수 모델
|
단계를 순차적으로 진행하는 방법으로 하향식 진행이나 문제, 개선사항이 발견되면 피드백 과정이 수행되기도 함
|
나선형 모델
|
반복을 통해 점증적으로 개발하는 방법이며, 처음 시도되는 프로젝트에 용이하지만, 반복 관리 체계를 구축하지 못하면 복잡성이 증가함
|
계층적 프로세스 모델
|
가장 일반적인 방법론 모델이며, 최상위 계층은 프로세스 그룹을 통해 완성된 단계별 산출물이 생성되어야 함.
|
1.2.2 KDD 분석 방법론
1996년 Fayyad에 의해서 개발, 체계적으로 정리한 데이터 마이닝 프로세스로서 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있다. KDD 분석 방법론에 존재하는 프로세스들은 다음과 같다.
① 비즈니스 도메인 이해
② 데이터셋 선택 및 생성
③ 정제작업, 전처리
④ 변수 찾기 및 데이터 차원 축소(데이터 변경)
⑤ 데이터 마이닝 기법 선택
⑥ 데이터 마이닝 알고리즘 선택
⑦ 데이터 마이닝 시행
⑧ 결과에 대한 해석
⑨ 지식 활용
KDD 분석 방법론으로 분석할 경우, 과정은 다음과 같다.
[KDD 분석 방법론의 분석과정]
데이터셋 선택 – 데이터 전처리 – 데이터 변환 – 데이터 마이닝 – 결과 평가

각 과정별 설명은 다음과 같다.
가. 데이터셋 선택
데이터 마이닝에 필요한 목표 데이터를 구성, 다음단계인 전처리를 통해 데이터 셋의 추가가 요구되는 경우 해당 프로세스를 반복할 수 있다.
나. 데이터 전처리
추출된 분석용 데이터 셋에 포함되어있는 이상치, 잡음, 결측치를 식별, 필요시 제거하거나 의미 있는 데이터로 처리하는 정제 작업
다. 데이터 변환
분석 목적에 맞는 변수를 선택하거나 데이터 차원을 축소하여 데이터 마이닝을 효율적으로 적용될 수 있도록 데이터 셋을 변경하는 작업
라. 데이터 마이닝
분석 목적에 맞게 데이터 마이닝 기법을 선택 및 사용해서 데이터의 패턴을 찾거나, 분류, 예측 등의 작업을 수행하는 단계, 필요에 따라 전처리와 변환 과정을 병행할 수 있다.
마. 결과 평가
결과에 대한 해석, 평가, 분석 목적과의 일치성 확인
1.2.3 CRISP-DM 분석 방법론
1966년 ESPRIT의 프로젝트 시작되어, 1999년 첫 버전 발표된 분석방법론이다. 총 4개의 레벨로 구성되는데, 각 레벨에 대한 설명은 다음과 같다.
- 최상위 레벨: 여러 개의 단계(Phase)로 구성, 각 단계는 일반화 태스크를 포함
- 일반화 태스크 레벨: 데이터 마이닝 단일 프로세스를 완벽하게 해주는 단위
- 세분화 레벨: 일반화 태스크를 구체적으로 수행하는 레벨
- 프로세스 실행 레벨: 데이터 마이닝을 위한 구체적인 실행을 포함
또한 분석 방법을 총 6단계로 구성해, 단계 간 피드백을 통해 단계별 완성도를 높이게 된다.
가. 업무 이해
비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계이자, 도메인 지식을 문제정의로 변경, 초기 프로젝트 계획을 수립하는 단계이다. 업무 목적, 상황 파악 / 데이터 마이닝 목표 설정 / 프로젝트 계획 수립을 수행하게 된다.
나. 데이터 이해
분석을 위한 데이터를 수집하고 속성을 이해하는 단계로, 데이터 품질의 문제점을 식별하고 숨겨진 인사이트를 발견한다. 해당 단계에서 초기 데이터수집 / 기술 분석 / 탐색 / 품질확인 등의 과정을 수행한다.
다. 데이터 준비
분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터 셋을 편성하는 단계이며, 분석과정 중 가장 많은 시간이 소요되는 단계이다. 이 단계에서는 분석 데이터 셋 선택 / 데이터 정제 / 데이터 셋 편성 / 데이터 통합 / 데이터 포맷팅을 수행한다.
라. 모델링
다양한 모델링 기법과 알고리즘을 선택하고 사용되는 파라미터를 최적화 하는 단계로, 데이터 셋이 추가로 필요한 경우 준비단계를 반복할 수 있다. 또한 찾아낸 모델은 테스트 셋으로 평가하여 과적합 등의 문제를 발견하고 대응방안을 마련한다.
마. 평가
모델링 단계에서 얻은 모델이 프로젝트 목적에 부합하는지 평가하여, 결과를 수용할 것인지 최종적으로 판단하는 과정을 수행하는 단계이다. 분석결과 평가 / 모델링 과정 평가 / 모델 적용성 평가를 수행한다.
바. 전개
모델을 실 업무에 적용하기 위한 계획을 수립하고 모니터링, 모델 유지보수 계획을 마련한다. 이 때, 모델은 기준에 따라 생명주기가 다양하기 때문에 상세한 전개 계획이 필요하다. 상기 내용이 완료된 경우 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 완료한다. 해당 단계에서는 전개 계획 수립 / 모니터링, 유지보수 계획 수립 / 프로젝트 종료보고서 작성 / 프로젝트 리뷰를 주로 수행한다.
1.2.4 빅데이터 분석 방법론
일반적으로 빅데이터 분석방법론이라고 하면, 계층적 프로세스 모델을 이용하며 총 3계층으로 구성된다.
- 단계 : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성
- 태스크 : 단계를 구성하는 단위 활동으로써 물리적 , 논리적 단위로 품질 검토의 항목이 될 수 있다.
- 스텝 : WBS의 워크패키지에 해당되고 입력자료, 처리 및 도구, 출력자료로 구성된 단위 프로세스
빅데이터 분석 방법론에 대한 진행과정은 아래와 같이 세분화된 단계로 구성되어 있으며, 각 단계별 설명은 다음과 같다.
가. 분석 기획
비즈니스 도메인과 문제점을 인식, 분석계획 및 프로젝트 수행계획을 수립하며, 이 때 프로젝트의 정의 및 수행계획을 구체적이고 상세하게 수립해야한다. 프로젝트의 위험을 사전에 식별하고 대응방안을 수립하는 과정이 필요하다.
* 비즈니스 이해 및 범위 설정
① 비즈니스에 대한 충분한 이해와 도메인에 대한 문제점을 파악
② 내부 업무 매뉴얼, 외부 관련 비즈니스 자료 조사
③ 향후 프로젝트 방향 제시
프로젝트의 범위를 명확히 파악하기 위해 구조화된 명세서를 작성해야하며, 참여하는 모든 관계자들을 이해시키기 위해 SOW(Statement Of Work, 프로젝터 범위 정의서)작성한다.
* 프로젝트 정의 및 계획 수립
프로젝트 추진 목표를 명확하게 정의하고 구체화하기 위해 모델의 운영 이미지를 설계하고 모델 평가 기준을 설정해 프로젝트 정의를 명확히 해야한다. 이를 위해 프로젝트 범위 정의서, 모델 운영 이미지 및 평가 기준 설정해준다. 프로젝트 정의가 설정되면 이를 기준으로 프로젝트의 WBS를 만들고 프로젝트 수행 계획을 작성한다. 이 때, WBS에는 프로젝트 목적, 배경. 기대효과, 수행방법, 일정 및 추진조직, 관리방안을 작성해준다.
* 프로젝트 위험 계획 수립
분석 프로젝트를 진행하면서 발생하는 모든 위험을 발굴하여 사전에 대응 방안을 수립함으로써 프로젝트 진행의 완전성을 높힌다. 이를 위해, 식별된 위험은 위험 영향도, 빈도, 발생가능성으로 평가하여 위험의 우선순위를 설정하고, 예상 위험은 회피 전이 완화 수용으로 구분하여 위험관리 계획서를 작성한다.
나. 데이터 준비
비즈니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 전사 차원의 데이터 스토어를 준비한다. 데이터 수집 저장은 복잡하고 시간이 많이 소요되므로 효율성을 위해 필요시 ETL 등의 다양한 도구를 제공한다.
* 필요 데이터 정의
분석 프로젝트 진행에 필요한 데이터를 정의하는 단계로, 전사 차원에서 필요 데이터를 정의하는 것이 중요하다. 또한 모든 내부, 외부 데이터를 포함하고 데이터 속성, 데이터 오너 등을 포함하는 데이터 정의서를 작성한다. 여기에는 시스템, 데이터베이스, 파일, 문서 등 다양한 내부, 외부 원천 데이터 소스로부터 분석 에 필요한 데이터를 정의한다.
내부 데이터 획득에는 부서 간 업무 협조와 개인정보보호 및 정보보안과 관련된 문제점을 사전에 점검계획 수립한다. 외부 데이터 획득에는 시스템간 다양한 인터페이스 및 법적인 문제점을 고려하여 상세한 데이터 획득계획 수립해야한다.
* 데이터 스토어 설계
데이터를 저장하기 위한 전사 차원의 데이터 스토어를 설계한다. 이를 위해, 정형 데이터는 구조화된 형식으로 관계형 데이터베이스인 RDBMS를 일반적으로 사용하고 효율적인 저장과 활용을 위해 데이터 스토어의 논리적 물리적 설계를 구분해서 설계한다. 만약, 비정형 데이터라면, 하둡, NoSQL 등을 이용해서 물리적, 논리적 데이터를 저장하기 위한 설계를 한다.
* 데이터 수집 및 정합성 점검
구축한 데이터 스토어에 크롤링, 시스템간 실시간 처리 등을 사용하여 데이터를 수집하고, 데이터베이스 연동, API를 이용한 개발 등의 다양한 방법으로 데이터 수집 프로세스를 진행한다.
저장된 데이터는 데이터의 품질을 확보하기 위한 정합성 검증을 실시하고 데이터 거버넌스에 근거하여 메타 데이터(데이터 사전)이 작성되고 적용되고 있는지 확인한다.
다. 데이터 분석
원천 데이터가 확보되면 분석용 데이터 셋으로 편성하고 다양한 분석 기법과 알고리즘 이용해서 분석 기획 단계에서 수립된 프로젝트를 진행한다. 분석에 필요한 데이터 셋을 준비, 탐색적 분석, 모델링, 모델 평가 태스크를 진행하고, 비정형데이터가 존재 시 텍스트 마이닝 등의 분석 기법을 활용하며 필요시 정형데이터와 결합하여 분석하기도 한다.
* 분석 데이터 준비
프로젝트 목표와 도메인을 이해하고 비즈니스 룰을 확인하며, 이에 대해 비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 이용하여 프로젝트의 목표를 정확하게 인식한다. 세부적인 비즈니스 룰을 파악하고 분석에 필요한 데이터의 범위를 확인하고, 데이터 스토어로부터 분석에 필요한 정형 및 비정형 데이터를 추출한다. 필요시 적절한 가공을 통해 분석도구 입력자료로 사용될 수 있도록 편성한다.
* 텍스트 분석
비정형, 반정형 텍스트 데이터를 이행하여 텍스트 마이닝 분석을 실시하고 분석 목적에 맞는 적절한 모델을 구축한다. 이 후, 전사 차원의 데이터 스토어에서 확인하고 필요한 데이터를 추출한다. 추출이 완료되면, 데이터 스토어에서 추출된 텍스트 데이터를 분석 도구로 적재하여 다양한 기법으로 분석하고 모델을 구축한다.
* 탐색적 분석
분석용 데이터 셋에 대한 정합성 검토, 데이터 요약, 데이터 특성을 파악하고 모델링에 필요한 데이터를 편성한다.
탐색적 분석(EDA)는 다양한 데이터 시각화를 활용하여 데이터 가독성을 명확히 하고 데이터 형상 및 분포 등 데이터 특성을 파악하는 작업이기에, 다양한 관점별로 기초 통계량을 산출, 데이터 자체의 특성 및 통계적 특성을 이해하고 모델링을 위한 기초 자료로 활용한다. 또한 데이터 시각화는 탐색적 분석을 위한 도구로 활용되며 향후 시스템 구현을 위한 프로토 타입으로 활용될 수 있다.
* 모델링
분석 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나 지도/비지도 학습을 통 한 기계학습을 이용한 데이터 분류, 예측, 군집 등의 기능을 수행하는 모델을 만드는 과정으로, 모델의 과적합과 일반화를 막기 위해 분석 데이터 셋을 모델 개발을 위한 훈련용 데이터와 검증용 데이터로 분할한다.
기계학습을 통한 데이터 모델링은 모델을 만들어 가동 중인 운영 시스템에 적용한다. 필요 시 비정형 데이터 분석 결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델링을 수행한다. 모델을 적용하기 위해서는 모델에 대한 상세한 알고리즘이 필요하며 안정적 운영을 모니터링하는 방안도 수립해야한다.
* 모델 평가 및 검증
분석 기획 단계에서 작성된 프로젝트 정의서의 평가 기준에 따라 모델의 완성도를 평가한다. 모델 검증은 분석 데이터 셋이 아닌 별도의 데이터 셋으로 모델의 객관성과 실무 적용성 을 검증하며, 검증 단계에서 요구되는 성능목표에 미달하는 경우 모델 튜닝 작업을 수행한다.
프로젝트 정의서의 모델 평가 기준에 따라 모델을 객관적으로 평가하고 품질관리 차원에서 모델 평가 프로세스를 진행한다. 실제 적용성 검증을 위해 검증용 데이터를 이용해 모델 검증 작업을 실시하고 모델링 검증 보고서를 작성한다.
* 적용 및 운영방안 수립
라. 시스템 구현
분석 기획에 맞는 모델을 도출하고 이를 운영 중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템을 구현한다. 이 후, 분석 보고서를 작성하는 것으로 프로젝트가 종료될 시, 평가 및 전개 단계를 수행한다.
* 설계 및 구현
시스템 설계서를 바탕으로 BI 패키지를 활용하거나 새롭게 프로그램 코딩을 통하여 시스 템을 구축한다. 이 때, 가동 중인 시스템을 분석하고 알고리즘 설명서에 근거하여 응용 시스템 구축 설계 프로세스를 진행한다.
* 시스템 테스트 및 운영
구축된 시스템의 검증을 위하여 단위 테스트, 통합테스트, 시스템 테스트 등을 실시한다.이는 품질관리 차원에서 진행함으로써 적용된 시스템의 객관성과 완전성을 보장할 수 있다.
마. 평가 및 전개
프로젝트의 성과를 평가하고 정리하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달한다. 수행된 프로젝트를 객관적이고 정량적으로 평가하여 내부 활용 및 자산화를 추진한다. 수행 중 발생한 모든 중간 산출물은 정리, 보고서를 작성해 의사소통 체계에 따라 보고하고 프로젝트를 종료한다.

1.3 분석 과제 발굴
풀어야 할 다양한 문제를 데이터 분석 문제로 변환한 후 이해관계자들이 이해하고 프로젝트로 수행할 수 있는 과제 정의서로 도출된다. 일반적으로 하향식 접근 방식을 이용하지만 대규모의 다양한 데이터를 생성하고 빠르게 변하는 기업 환경에서는 상향식 접근 방식이 유용하다,
분석과제를 도출하기 위한 방식은 문제가 주어진 경우 해법을 찾기 위하여 절차적으로 수행하는 하향식 접근 방식(Top-Down Approach) 과 문제의 정의 자체가 어려운 경우 데이터를 기반으로 탐색하고 이를 지속적으로 개선해나가는 방식인 상향식 접근 방식(Bottom-Up Approach) 으로 분류된다.

1.3.1 하향식 접근 방식(Top Down Approach)
가. 문제 탐색
전체적인 관점의 기준 모델을 활용하여 빠짐없이 문제를 도출하고 식별하는 것이 중요하다. 비즈니스 모델, 외부 참조 모델이 있으며, 과제 발굴 단계에서는 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요하다.
① 비즈니스 모델 기반 문제 탐색
비즈니스 모델이라는 틀을 활용해서 가치가 창출될 문제를 누락없이 도출할 수 있다. 크게 5가지 영역으로 단순화 시킨다.
- 업무: 제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원 관련주제 도출
- 제품: 생산 및 제공하는 제품, 서비스를 개선하기 위한 관련 주제 도출
- 고객: 제품서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출
- 규제와 감사: 제품 생산 및 전달 과정 프로세스 중에 발생하는 규제 및 보안의 관점에서 주제를 도출
- 지원 인프라: 분석을 수행하는 시스템 영역 및 이를 운영, 관리하는 인력의 관점에서 주제 도출

새로운 문제의 발굴 및 장기적인 접근을 위해 기업이 수행하는 비즈니스뿐만 아니라 환경과 경쟁 구도의 변화 및 역량 재해석의 혁신의 관점이 필요하다. 거시적 관점 요인, 경쟁자의 동향, 시장의 니즈 변화, 역량의 재해석 등 새로운 관점의 접근을 통해 새로운 유형의 분석 기회 및 주제 발굴을 수행해야된다.
▶ 거시적 관점(사회, 기술, 경제, 환경, 정치 / STEEP)
- 사회 영역(Society): 전체 시장을 대상으로 사회적, 문화적, 구조적 트랜드 변화에 기반한 분석 기회 도출
- 기술 영역 (Technology): 최신 기술의 등장 및 변화에 따른 역량 내재화와 제품, 서비스 개발에 대한 분석 기회 도출
- 경제 영역 (Economics): 산업과 금융 전반의 변동성 및 경제 구조 변화 동향에 따른 시장 흐름을 파악 및 분석 기회 도출
- 환경 영역 (Environment): 환경과 관련된 정부, 사회단체, 시민사회의 관심과 규제 동향을 파악 및 분석 기회 도출
- 정치 영역 (Politics): 주요 정책 방향, 정세, 지정학적 동향 등의 거시적인 흐름을 토대로 분석 기회 도출
▶ 경쟁자 확대 관점(대체재, 경쟁자, 신규진입자)
현재 수행중인 사업의 경쟁자 및 서비스, 제품을 포함해 대체재와 신규 진입자등으로 관점을 확대하여 위협이 될 수 있는 상황을 탐색함
- 대체재 영역: 현재 생산하고 있는 제품, 서비스의 대체재를 파악 및 분석 기회 도출
- 경쟁자 영역: 현재 생산하고 있는 제품, 서비스의 주요 경쟁자의 동향을 파악 및 분석 기회 도출
- 신규진입자 영역: 현재 직접적인 경쟁자는 아니지만 향후 시장에 대해 파괴적인 역할을 수행할 수 있는 신규진입자에 대한 동향 파악 및 분석 기회 도출
▶ 시장의 니즈 탐색 관점(고객, 채널, 영향자)
현재 수행하고 있는 사업의 고객뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널 및 고객의 구매와 의사결정에 영향을 미치는 영향자들에 대한 관점을 바탕으로 분석기회 를 탐색함
- 고객 영역: 구매 동향 및 컨텍스트를 더욱 깊게 이해하여 제품, 서비스의 개선 필요에 필요한 분석 기회 도출
- 채널 영역: 자체적으로 운영하는 채널뿐만 아니라 최종 고객에게 상품, 서비스를 전달하는 것에 경로로 존재하는 가능한 경로를 파악하여 해당 경로에 존재하는 채널별로 분석 기회를 확대하여 탐색
- 영향자 영역: 기업 의사결정에 영향을 미치는 주주, 투자자, 협회 및 기타 이해관계자의 주요 관심사항에 대해서 파악하고 분석 기회 탐색
▶ 역량 재해석 관점(내부 역량, 파트너와 네트워크)
해당조직의 비즈니스에 영향을 끼치는 파트너 네트워크를 포함한 활용 가능한 역량을 토대로 분석기회를 탐색
- 내부 영역: 기본적인 것뿐만 아니라 중요하면서 간과하기 쉬운 노하우와 인프라적인 유형 자산에 대해서 폭넓게 재해석하고 해당 영역에서 분석 기회를 탐색
- 파트너와 네트워크: 자사가 직접 보유하고 있지 않으나 밀접한 관계를 유지하고 있는 관계사와 공급사 등의 역량을 활용해 수행할 수 있는 기능을 파악 및 분석 기회 탐색
② 외부 참조 모델기반 문제 탐색
잘 알려진 문제를 푸는 것뿐만 아니라 새로운 문제를 발굴하기 위해서는 유상, 동종의 환경에서 기존에 수행한 분석 과제를 살펴보는 것도 주요한 시사점을 도출해 준다.
Quick & Easy 방식으로 필요한 분석 기회가 무엇인지 아이디어를 얻고 기업에 적용할 분석테마 후보목록을 워크숍 형태의 브레인 스토밍을 통해 빠르게 도출하는 방법이다. (→ 데이터 분석을 통해 인사이트를 도출하여 다양한 업무 사례 및 서비스에 적용이 가능)
데이터 분석을 통한 인사이트를 도출하고 업무에 활용하는 사례들을 발굴하여 자사의 업종 및 업무 서비스에 적용할 수 있다. 평상시 지속적인 조사와 데이터 분석을 통한 가치 발굴 사례를 정리하여 풀로 만들어 둔다면 과제 발굴 및 탐색 시 빠르고 의미 있는 분석 기회 도출이 가능하다.
③ 분석 유즈 케이스(Analytics Use Case) 정의
분석 유즈 케이스란, 분석을 적용했을 시 업무 흐름을 개념적으로 설명한 것으로, 비즈니스 모델을 구성하는 이론에 대한 설명과 하나이상의 분석을 포함하며 프로세스 혁신의 수단으로 이용 가능하다. 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용할 수 있다. 분석 유스 케이스의 단계는 크게 3개 단계이며, 아래와 같이 구성된다.
- 발굴 단계: 인과지도(Casual Loop Diagram, C.L.D)의 이론을 분석하여 분석 유즈 케이스 를 발굴
- 정의 단계: 돌출된 분석 유즈 케이스를 상세하게 정의, 필요한 분석을 찾아내기 위해 프로세스 흐름을 표현한 이벤트-반응 다이어그램 활용
- 이벤트-반응 다이어그램: 프로세스의 시작~중료의 흐름도 필요한 분석을 찾기 위해 사용하며, 엑터(이벤트 주체/원), 이벤트(반응 촉발 대상/화살표), 흐름(엑터나 이벤트의 선후관계와 연결관계/선) 으로 구성된다.
- 분석 평가 단계: 발굴된 분석을 평가하여 핵심 분석을 찾음
- 핵심 분석: 비즈니스 모델의 경쟁요인과 관련되는 분석
- 평가 기준: 중요도(CLD이론 지원 수치), 영향도(사람을 지원하는 정도), 난이도(적용도)
나. 문제 정의
식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계이며, 문제 탐색에서 나온 결론을 달성하기 위해 필요한 데이터 및 기법을 정의하기 위한 데이터 분석의 문제로 변환하는 작업이 수행된다. 데이터 분석 문제가 잘 정의 되었을 때 필요한 데이터의 정의 및 기법 발굴이 용이하기 때문에 가능한 정확하게 분석의 관점으로 문제를 재정의해야된다.
다. 해결방안 탐색
정의된 데이터 분석 문제를 해결하기 위한 다양한 방안이 모색된다. 동일한 데이터 분석 문제더라도 데이터와 분석 시스템의 종류에 따라 소요 예산 및 활용도구가 다르기 때문이며, 분석 역량을 기존에 가지고 있는 가의 여부도 파악할 수 있다. 만약 없는 경우라면, 교육이나 전문 인력 채용을 통한 역량 확보 또는 분석 전문 업체를 활용할 지를 사전에 검토한다.
라. 타당성 검토 단계
① 경제적 타당성
- 비용 대비 편익 분석 관점의 접근
- 분석 비용으로 구성되며 분석결과 적용 시 추정되는 경제적 가치로 산출된다.
② 데이터 및 기술적 타당성
- 데이터 분석에는 데이터 존재 여부, 분석 시스템 환경, 분석 역량이 필요
- 특히 분석 역량의 경우 실제 프로젝트 수행 시 걸림돌이 되는 경우가 많기 때문에 기술적 타당성 분석 시 역량 확보 방안을 사전에 수립해야한다.
- 비즈니스 지식과 기술적 지식이 요구되므로 비즈니스 분석가, 데이터 분석가, 시스템 엔지니어 등의협업이 수반되어야 함
도출된 여러 대안 중에서 평가 과정을 거쳐 가장 우월한 대안을 선택하며 도출한 데이터 분석 문제 및 선정된 솔루션 방안을 포함해 분석 과제 정의서의 형태로 명시하는 후속작업을 수행한다.
1.3.2 상향식 접근 방식(Bottom Up Approach)
다양한 원천 데이터를 대상으로 분석을 수행해 가치 있는 문제를 도출하는 일련의 과정으로 기존의 하향식 접근법의 한계를 극복하기 위한 분석 방법론이다. 특징으로는 복잡하고 다양한 환경에서 발생하는 문제에는 적합하지 않을 수 있다.

사물을 있는 그대로 인식하는 “What”의 관점으로 인식하며, 객관적으로 존재하는 데이터 자체를 관찰하고 행동에 옮김으로써 대상을 이해하는 방식으로의 접근을 수행한다. 대표적인 방식으로는 비지도학습 방식이 있으며, 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표시하는 것 (ex. 군집화, 장바구니 분석, 기술 통계 및 프로파일링) 이 해당된다.
특징은 목표 값을 사전에 정의하지 않고 데이터 자체만을 가지고 그룹들을 도출함으로써 해석이 용이하지 않으나, 새로운 유형을 인사이트를 도출하는 유용한 방식이라는 점이다.때문에 인과 관계보다는 상관 관계를 중요시 한다. 다량의 데이터 분석을 통해 왜 그러한 일이 발생하는 지 역으로 추적하여 문제 도출 혹은 재정의 하는 과정이 수반된다.
수행 시, 시행착오를 통한 문제해결이 주로 이뤄지며, 대표적인 방식으로 프로토타이핑(Proto-typing) 접근법을 사용한다. 프로토타이핑 접근법이란, 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 파악하기 어려운 상황에서 일단 분석을 시도해보고 결과를 확인해 가며 반복적으로 개선하는 방식으로, 완전하지는 못하나 신속하게 해결책이나 모형을 제시함으로써 문제를 좀 더 명확하게 인식하고 필요한 데이터를 식별하여 구체화 할 수 있는 방식이다. 기본 프로세스는 가설생성 → 디자인 실험 → 실제 환경에서 시험 → 통찰 도출 및 가설 확인 순으로 진행된다. 이를 통해, 실험이 가지고 있는 불명확성이 감소하고 의도한 결과를 도출할 수 있는 성공가능성이 높아질 수 있다.
프로토 타이핑과정이 의 필요한 이유는 아래와 같이 정리할 수 있다.
- 문제에 대한 인식수준
문제 정의가 불명확하거나 처음 접하는 문제의 경우 문제를 이해 하고 이를 바탕으로 구체화 하는 데 도움을 줄 수 있다. - 필요 데이터 존재 여부의 불확실성
문제 해결을 위해 필요한 데이터의 집합이 모두 존재하지 않을 경우 데이터 사용자와 분석가 간의 반 복적이고 순환적인 협의 과정이 필요하다. → 대체 불가능한 데이터가 존재하는 지 사전에 확인하면 리스크를 사전에 방지 가능 - 데이터의 사용 목적 가변성
데이터의 가치는 지속적으로 변화할 수 있으므로 조직에서 보유 중인 데이터라 하더라도 기존의 데이터 정의를 재 검토하여 데이터의 사용 목적과 범위를 확대할 수 있다.
분석 과제 정의할 때는, 다양한 방식을 통해서 도출한 분석과제를 분석과제 정의서 양식을 활용하여 보다 상세하게 정의한다. 분석과제 정의서는 향후 프로젝트 수행계획의 입력물로 사용되므로 이해관계자가 프로젝트의 방향을 설정하고 성공 여부를 판별할 수 있는 주요 자료로서 명확하기 작성되어야한다. 또한, 분석과제 정의서를 통해 분석별로 필요한 소스 데이터, 분석방법, 데이터 입수 및 분석의 난이도, 분석 수행 주기, 분석 결과에 대한 검증 오너쉽, 상세 분석 과정 등을 정의한다.
1.4 분석 프로젝트 관리 방안

분석 프로세스를 관리할 때는, 위의 그림과 같이 5가지의 특성에 대해서 관리되어야 한다. 각 항목에 대한 내용은 다음과 같다.
- Data Size
분석하고자 하는 데이터의 양을 고려한 관리방안 수립한다. - Data Complexity
비정형 데이터 및 다양한 시스템에 산재되어 있는 원천 데이터들을 통합해서 분석 프로젝트를 진행할 때 초기 데이터의 확보와 통합 및 해당 데이터에 잘 적용될 수 있는 분석 모델의 선정 등에 대한 사전 고려가 필요하다. - Speed
분석 결과가 도출되었을 때 이를 활용하는 시나리오 측면에서의 속도도 고려해야 하며, 프로젝트 수행 시 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 진행되야한다. - Analytic Complexity
분석 모델의 정확도와 복잡도는 트레이드오프 관계가 존재, 즉 복잡 할수록 정확도는 올라가지만 해석이 어려워지는 단점이 존재하므로 기준선을 사전에 정의해야된다. - Accuracy & Precision
Accuracy는 모델의 정확도, Precision은 모델이 지속적으로 반복 했을 때 일관적으로 동일한 결과를 제시한다는 것을 의미하며, 분석의 활용적 측면에서는 정확도가, 안정성 측면에서는 일관성이 중요하다.
1.4.1 분석 프로젝트 특성
분석가의 목표는 분석의 정확도 향상과 도출된 분석과제를 잘 구현해 원하는 결과를 얻는 것, 사용자를 생각해서 원활하게 활용가능 하도록 전체적인 과정을 고려해서 전반적인 프로젝트 관리하는 것이다. 때문에 분석 프로젝트에서는 데이터 영역과 비즈니스 영역의 현황을 이해하고 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로써의 분석가 역할도 중요하다.
도출된 결과의 재해석을 통한 지속적인 반복과 정교화가 수행되는 경우가 대부분이며, 프로토타이핑 방식 중 에자일(Agile) 프로젝트 관리 방식에 대한 고려도 필요하다.
분석 프로젝트는 데이터 영역과 비즈니스 영역에 대한 이해뿐만 아니라 지속적인 반복이 요구되기때문에 분석 프로세스의 특성을 이해한 프로젝트 관리 방안을 수립하는 것이 중요하다. 이에 대해 정의서를 기반으로 시작하되 지속적인 개선 및 변경을 염두에 두고 기간 내에 가능한 결과를 도출할 수 있도록 협업해야되는 것이 필요하다.
1.4.2 분석 프로젝트 관리방안
프로젝트 관리 지침을 기본 가이드로 활용하며, 프로젝트 관리 지침의 관리체계는 다음 10가지로 구성된다.

분석가 분석 프로젝트에서 프로젝트 관리자의 역할을 수행하는 경우가 대부분이므로 프로젝트 관리 영역에 대한 주요한 사항들은 체크 포인트 형태로 관리해서 발생할 수 있는 이슈와 리스크를 숙지하고 미연에 방지한다.
'Certification > ADP&ADsP 🪪' 카테고리의 다른 글
[ADP&ADsP] 5. 데이터 분석 기획 Ⅱ : 분석 마스터 플랜 (4) | 2024.10.20 |
---|---|
[ADP&ADsP] 3. 데이터 처리 기술 Ⅱ : 데이터 처리 기술 (6) | 2024.10.18 |
[ADP/ADsP] 2. 데이터 처리 기술 Ⅰ : 데이터 처리 프로세스 (1) | 2024.10.16 |
[ADP/ADsP] 1. 데이터 이해 (7) | 2024.10.16 |