Published on

ADsP - 분석 방법론

분석 방법론 개요

개요

데이터 분석이 효과적으로 조직 내에 정착하기 위해서는 이를 체계화한 절차와 방법이 정리된 데이터 분석 방법론 수립이 필수적이다.

방법론은 절차(procedures), 방법(Methods), 도구와 기법(Tools & Techniques), 템플릿과 산출물(Templates & Outputs) 로 구성되어 어느 정도의 지식만 있으면 활용이 가능해야한다.

데이터 기반 의사결정의 필요성

기업의 합리적 의사결정을 가로막는 장애요소 : 고정 관념(Stereotype), 편향된 생각(bias), 프레이밍 효과(Framing Effect)등을 예방히기 위해서 필요하다.

방법론의 생산과정

암묵지 -형식화-> 형식지 -체계화-> 방법론 -내재화-> 암묵지

방법론의 적용 업무의 특성에 따른 모델

  1. 폭포수 모델(Waterfall Model) 단계를 순차적으로 진행하는 방법 이전 단계가 완료되어야 다음 단계로 진행될 수 있으며 문제가 발견될 시 피드백 과정이 수행된다.
  2. 프로토타입 모델(Prototype Model) 폭포수 모델의 단점을 보완하기 위해 점진적으로 시스템을 개발해 나가는 접근 방식으로, 고객의 요구를 완전하게 이해하고 있지 못하거나 완벽한 요구 분석의 어려움을 해결하기 위해 일부분을 우선 개발하여 사용자에게 제공한다. 시험 사용 후 사용자의 요구를 분석하거나 요구 정당성을 점검, 성능을 평가하여 그 결과를 통한 개선 작업을 시행하는 모델이다.
  3. 나선형 모델(Spiral Model) 반복을 통해 점증적으로 개발하는 방법으로, 처음 시도하는 프로젝트에 적용이 용이하지만 관리 체계를 효과적으로 갖추지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있다.

방법론의 구성

단계 : 최상위 계층으로서 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성된다. 각 단계는 기준선으로 설정되어 관리되어야 하며, 버전관리 등을 통하여 통제된다. 태스크 : 단계를 구성하는단위 활동으로써 물리적 또는 논리적 단위로 품질검토의 항목이 된다. 스탭 : WBS(Work Breakdown Structure)의 워크 패키지(Work Package)에 해당되고, 입력자료(input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스이다.

KDD 분석 방법론

개요

KDD(Knowledge Discovery in Database)는 1996년 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계적 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스이다. 데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용 될 수 있는 구조를 갖고 있다.

KDD 분석 절차

  1. 데이터셋 선택(Selection)
    • 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이며 데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계이다.
    • 데이터마이닝에 필요한 목표데이터를 구성하여 분석에 활용한다.
  2. 데이터 전처리
    • 추출된 분석 대상용 데이터 셋에 포함되어 있는 잡음(Noise)과 이상치(Outliner), 결축치(Missing Value)를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋을 정제하는 단계이다.
    • 데이터 전처리 단계에서 추가로 요구되는 데이터 셋이 필요한 경우 데이터 선택 프로세스를 재실행한다.
  3. 데이터 변환
    • 데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 할 수 있도록 데이터에 변경하는 단계이다.
    • 데이터마이닝 프로세스를 진행하기 위해 학습용 데이터(training data)와 검증용 데이터(test data)로 데이터를 분리하는 단계이다.
  4. 데이터 마이닝
    • 학습용 데이터를 이용하여 분석목적에 맞는 데이터마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계이다.
    • 필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 산출한다.
  5. 데이터 마이닝 결과 평가
    • 데이터마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성을 확인한다.
    • 데이터마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련의 단계이다.
    • 필요에 따라 데이터 선택 프로세스에서 데이터마이닝 프로세스를 반복 수행한다.

CRISP-DM 분석 방법론

개요

CRISP-DM(Cross Industry Standard Process for Data Mining)은 1996년 유럽 연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5개의 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도하였다. CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성된다.

CRISP-DM의 4레벨 구조