일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- cnn #keras #딥러닝 # EarlyStopping #
- python #파이썬 #판다스 #pandas #가변수화 #get_dummies #범주화
- Auto ML
- KT에이블스쿨
- KT #kt #kt에이블스쿨 #DX #kt aivle 3기 # kt aivle dx # DX후기
- ADsP #데이터준전문가
- 파이썬 # python # 이변량분석 # 단변량분석 # 시각화 # 수치화
- 파이썬 #python #DataFrame #pandas #판다스
- batch normalization
- 파이썬 #python #numpy #array #배열 #인덱싱 #슬라이싱
- 파이썬 #python #class
- 파이썬 #python #함수 #내장함수 #예외처리
- KT에이블스쿨 #DX #DX 3기 #후기 #기자단 #에이블 기자단
- argmax #다중분류
- 하이퍼파라미터 최적화
- kt에이블 스쿨 #kt #공모전 #DX 후기 # DX 3기 # kt 에이블스쿨 DX 3기 # kt 에이블스쿨 3기
- Python #파이썬 #판다스 #pandas #선형보간법 #결측치처리
- KT에이블스쿨 #aice합격후기 #aice associate # aivle합격
- python #pandas #판다스 #파이썬 #DataFrame #데이터탐색 #데이터 조회 #데이터 집계 #jupyter lab #jupyter notebook
- ADsP #데이터분석준전문가
- 머신러닝 #ML #copysheet # ML copysheet #머신러닝 copysheet
- IT 인프라 #서브넷 #7계층 #OSI #TCP #IT Infra
- 32회 #ADsP #데이터분석준전문가
- randomsearch
- 에이블후기
- 파이썬 #python #리스트 #리스트 컴프리헨션 #딕셔너리 #메소드
- KT에이블스쿨 3기 #DX과정 #인적성 #
- Softmax
- KT에이블스쿨 #에이블 #DX #3기
- Image Data Augmentation #
- Today
- Total
파이썬 하는 파이리
ADsp 2과목 본문
2과목-데이터의 분석기획
-1장 데이터 분석 기획의 이해
1-1 분석기획의 방향성 도출
1.분석기획 : 단기적으로는 분석과제 도출 장기적으로는 분석마스터플랜을 수행해 분석 거버넌스를 수립하는 것
2.분석주제유형: 대상(what) 방법(how)에 따라 4가지로 분류
how(방법) | what(대상) | ||
o | x | ||
o | optimizing(최적화) | insight(통찰) | |
x | solution(솔루션) | discovery(발견) | |
하향식 방법론=> <=상향식 방법론 |
3.목표시점별 분식기획 방안
당면한분석주제의 해결 | 지속적분석문화 내재화 | |
과제단위(단기) | 마스터플랜단위(장기) | |
Speed & Test | <1차목표> | Accuracy & Deploy |
Quick & Win | <과제의 유형> | Long term view |
Problem Solving | <접근방식> | Problem Definition |
4.분석기획시 고려사항-데이터, 유즈케이스, 장애요소에 대한 사전계획
1) 가용 데이터의 필요-데이터 유형에 따라 적용 가능한 솔루션 및 분석방법이 다름(정형,비정형,반정형)
2) 적절한 유즈케이즈-유사분석 시나리오 및 솔루션 최대한 활용
3) 장애요소에 대한 사전계획 수립-충분하고 계속적인 교육 및 활용 방안 등의 변화관리(일회성x)
*장애요소->비용대비 적정한 비용, 분석모형의 안정적 성능, 조직역량으로 내재화
1-2 분석방법론
1) 기업의 합리적 의사결정의 중요성 : 고정관념, 편향된 생각, 프레이밍 효과 등은 합리적 의사결정을 가로막음
2)분석방법론의 구성요소 : 방법, 절차, 도구와 기법. 템플릿과 산출물
3)분석방법론의 종류
-폭포수 모델 : 단계를 순차적으로 진행(top down) -문제나 개선사항이 발견되면 전 단계로 돌아가는 피드백
-프로토타입 모델 : 일부분 우선 개발 사용자에게 제공, 시험 사용 후 반복적으로 개선진행
-나선형 모델: 반복을 통해 점진적으로 개발, 처음 시도 하는 프로젝트에 용이, 관리체계 없을 시 복잡도 상승, 많은 시간소요
4) KDD분석 방법론
-데이터 선택 : 비즈니스 도메인 이해, 프로젝트 목표 설정, 데이터 선택
-데이터 전처리 : 잡음-이상치-결측치 제거
-데이터 변환: 분석 목적에 맞는 변수 생성, 데이터 차원축소, test set, training set 구분
-데이터 마이닝: 기법 선택 및 적용
-데이터 마이닝 결과평가
5) CRISP-DM 분석 방법론
-업무이해 : 업무 목적파악-> 상황파악-> 데이터 마이닝 목표설정-> 프로젝트 계획 수립
-데이터 이해 : 초기데이터 수집, 데이터 기술 분석, 데이터 탐색, 품질확인
-데이터 준비 : 분석용 데이터 셋 선택/정제/통합/포맷팅
-모델링 : 데이터를 분류, 예측, 군집 등을 수행하도록 만드는 것, 모델링 기법선택, 모델작성, 모델평가
-평가: 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
-전개 : 실 업무에 적용하기 위한 계획 수립
< KDD와 CRISP-DM 비교>
KDD | CRISP-DM |
비즈니스 이해 | 업무이해 |
데이터선택 | 데이터 이해 |
데이터전처리 | |
데이터 변환 | 데이터 준비 |
데이터 마이닝 | 모델링 |
데이터 마이닝 결과평가 | 평가 |
데이터 마이닝 활용 | 전개 |
6) 빅데이터 분석 방법론 => 단순한 데이터 분석이나 데이터 마이닝을 통한 분석 보고서를 작성
1.분석기획(단계)
<테스크>
-비즈니스 이해 및 범위설정 : 정의서 SOW작성
-프로젝트 정의 및 계획수립 : KPI,WBS 수행계획서 작성
-프로젝트 위험 계획수립 : 회피 전이 수용 완화
2.데이터 준비(단계)
-필요 데이터 정의 : 데이터 정의서 작성
-데이터 스토어 설계 : RDBMS활용 논리적, 물리적 데이터 스토어 설계
-데이터 수집 및 적합성 점검 : 크롤링, API 수집된 데이터를 설계된 데이터 스토어에 저장
3.데이터 분석
-분석용 데이터 준비 : 문제점 인식, 목표 정확하게 인식, 정형, 비정형 데이터 추출
-텍스트 분석 : 감성분석, 토픽분석, 오피니언 분석, 소셜네트워크 분석
-탐색적 분석 : 기초통계량 산출 데이터 특성, 데이터의 통계적 특성 이해
-모델링 : 가설설정을 이용한 통계 모델 기계학습을 이용한 분류, 예측, 군집, 데이터분할, 모델링, 적용 및 운영방안
-모델 평가 및 검증
4.시스템 구현
-설계 및 구현 : 시스템 및 아키텍처, 사용자 인터페이스 설계 + 보안작성 진단 및 개선
-시스템 테스트 및 운영 : 단위, 통합, 시스템 테스트 실시
5.평가/전개
-모델 발전 계획 : 발전계획 상세히 수립
-프로젝트 평가보고 : 프로젝트 최종보고서 작성
※프로젝트가 종료되는 경우에는 시스템 구현단계를 수행할 필요가 없다.
1-3 분석과제 발굴
1.분석과제 발굴 방법론
1-1.하향식 접근법(탑다운)- 분석과제가 주어지고 해법을 찾기 위해 체계적으로 단계화하여 수행
-문제탐색 :
(1) 비즈니스 모델 기반 문제탐색: 업무, 제품, 고객, 규제와 감사, 지원인프라
(2) 분석기회발굴의 범위 확장 : 경쟁자 확대(대체제 경쟁자 신규진입자), 시장&니즈 탐색(고객,채널,영향자들), 역량의 재해석(내부역량, 파트너 네트워크), 거시적 관점(사회,기술,경제,환경,정치)
(3) 외부참조모델 : 벤치마킹(Quick & Easy)
(4) 분석유즈케이스 : 구체적인 과제로 만들기 전 분석 유즈케이스로 표기하는 것, 전환 및 적합성 평가에 활용
-문제정의 : 데이터의 문제로 변환
-해결방안 탐색 – Who How로 해결방안 탐색
-타당성 검토 : 경제적 타당성(비용효익), 데이터 및 기술적 타당성 검토
1-2 상향식 접근법(바텀업) : 문제 정의 자체가 어려운 경우, 비지도 학습으로 수행(결합,연관성,유사성 등의 군집분석,장바구니 분석,기술통계 및 프로파일링)
-프로토타이핑 접근법(가설생성->디자인에 대한 실험->테스트->통찰)
ex) 애자일 모델 : 앞을 예측하여 개발x 일정한 주기를 가지고 끊임없이 프로토타입 생성, 요구사항 더하고 수정하며 커다란 소프트웨어 만들기 <=> 워터폴 모델(전체적 모델을 짜고 문서를 통해 주도)
1-3 디자인 씽킹 : 상향식 + 하향식 ( 공감->정의->아이디어->프로토타입->테스트)
1-4 분석과제 정의서
=>프로젝트 수행게획의 입력물 프로젝트의 방향설정, 성공여부 판별
1-5 분석 프로젝트의 관리방안
1.분석과제관리 5대영역 : 범위,일정,리스크,품질,의사소통 + 데이터의 양/크기, 분석 정확도/복잡성/스피드
분석 정확도/복잡성 : 트레이드 오프관계가 존재 : 복잡도가 올라가면 정확도는 상승하지만 해석이 어렵다
정확도
-accuracy: 모델과 실제값 차이가 작다는 정확도 (활용적 측면)
-precison: 모델을 지속적으로 반복했을 때 편차의 수준으로 일관적으로 동일한 결과를 제시한다.(안정적 측면)
2. 분석프로젝트 영역별 주요 관리항목
프로젝트 관리 지침(KS A ISO 21500:2013)반영
-범위
-시간
-의사소통
-품질
-자원
-리스크
-이해관계자
-원가
-시간=>time boxing 기법(일정관리)
-통합
2장 분석마스터플랜
1. 분석마스터플랜 : 우선순위를 평가하고 단계적 구현 로드맵을 수립하는 계획
-우선순위 고려요소 : 전략적 중요도, 비즈니스 성과(ROI), 실행 용이성 -> 우선순위 결정
-적용범위 고려요소 : 업무 내재화 적용수준, 분석 데이터 적용수준, 기술 적용수준 ->단계적 구현 로드맵 수립
분석과제도출=>우선순위평가(우선순위 기준 수립)=>우선순위정렬(분석과제 수행의 선후관계 분석을 통해 순위조정)
2. ROI관점에서 빅데이터 핵심 특징
-투자비용 요소(3V)=>난이도(해당 기업의 현 상황에 따라(데이터(과제)의양 적용범위) 판단, 조율 가능)
-비즈니스 효과(Value)=>시급성(전략적 중요도와 비용범위 따른 가장 중요한 기준)
-정보전략계획(ISP): 전략적 주요정보를 포착하고 전사적 관점의 정보구조 도출 시스템의 중장기 로드맵을 정의. 정보기술 및 시스템의 전략적 활용을 위해 중장기 마스터플랜 수립
<과제우선순위 결정>
x축 시급성 y축 난이도 : 난이도 :3->1->2 시급성 : 3->4->2
1 | 2 |
3 | 4 |
2.분석거버넌스 체계 수립
분석 거버넌스 체계 구성요소 : 데이터, 조직/인력, process, 시스템, 교육 및 변화관리
2.데이터 분석 수준진단
-분석 준비도 : 업무/조직, 기법/데이터, 문화/인프라
데이터 분석 준비도 프레임워크
1.분석업무 : 사실/예측/시뮬레이션/최적화 분석 업무, 분석업무 정기적 개선
2.분석조직 : 전사 분석업무 총괄조직존재(집중구조), 분석 전문가 직무 존재
3.분석기법 : 업무별 적절한 분석기법, 분석업무 도입 방법론, 효과성 평가, 정기적 개선
4.분석데이터 : 충분성-신뢰도-적시성 + 비구조 데이터 관리, 외부 데이터 활용 체계, 기준 데이터 관리
5.분석문화 : 사실에 근거한 의사결정 vs 데이터 기반의 의사결정, 데이터 공유 및 협업 문화
6.분석인프라 : 운영시스템 데이터 데이터 통합, 빅데이터 분석환경, 통계 분석 환경, 비쥬얼 분석환경
-분석성숙도(CMMI 모델평가)-비즈니스 부문, 조직역량 부문, IT부문
1. 도입 : 분석을 시작하여 환경과 시스템을 구축
2. 활용 : 분석 결과를 실제 업무에 적용
3. 확산 : 전사 차원에서 분석을 관리하고 공유, 데이터 사이언티스트 확보, 비주얼 분석, 시뮬레이션 및 최적화
4. 최적화 : 분석을 진화시켜서 혁신 및 성과향상에 기여(샌드박스, 프로세스 내재화)
3. 분석수준진단결과
성숙도 | ||
정착형 | 확산형 | 준비도 |
준비형 | 도입형 |
3.데이터 거버너스 ->독자 수행 가능, IT, EA 구성요소 구축
-전사 차원의 모든 데이터에 대한 정책(질<수명주기관리), 표준화 등의 관리체계를 수립하는 것.
(1) 데이터 거버넌스 구성요소 : 원칙, 조직, 프로세스
-원칙: 데이터를 유지 관리하기 위한 지침과 가이드, (보안,품질기준,변경관리)
-조직 : 데이터를 관리할 조직의 역량과 책임( 데이터 관리자, DB관리자, 데이터 아키텍쳐)
-프로세스 : 데이터 관리를 위한 활동과 체계(작업절차, 모니터링 활동, 측정활동)
(2) 데이터 거버넌스 4가지 체계 : 데이터 표준화, 관리체계, 저장소 관리 + 표준화 활동
-데이터 표준화 : 데이터 표준 용어 설정, 명명규칙, 메타데이터 구축, 데이터 사전구축
※메타데이터 : 구조된 데이터로 다른 데이터를 설명
-데이터 관리체계 : 메타데이터와 데이터 사전의 관리원칙 수립, 조직의 역할과 책임 (빅데이터는 주기관리방안 x)
-데이터 저장소관리 : 메타데이터 및 표준데이터 관리 관리용 응용소프트웨어 지원, 인터페이스를 통한 통제, 워크플로우 지원, 사전영향평가 수행
-표준화 활동 : 표준 준수 여부 확인 및 모니터링
(3) 데이터 조직 및 인력방안 수립
-분석을 위한 3가지 조직구조
1) 집중구조
-전사 분석업무를 별도의 분석 전담조직
-전략적 중요도에 따라 우선순위를 정하여 추진가능
-업무 중복 또는 이원화 가능성
2) 기능구조
-해당 업무를 부서에서 분석 수행
-특정업무 부서에 국한된 분석 수행 가능성 존재
-중복된 분석 업무 수행가능성
-전사적 관점에서 핵심분석 어려움
3) 분산구조
-분석조직 인력들을 현업부서로 배치하여 분석업무 수행
-전사 차원에서 우선순위를 정해 수행 가능
-분석 결과를 신속하게 실무에 적용가능
4.분석과제 관리 프로세스
(1) 분석과제 발굴
-분석 아이디어 발굴
-분석과제 후보제안(과제풀)
-분석과제 확정( 풀관리x, 시사점만관리)
(2) 과제수행
-팀구성(과제제안자가)
-분석과제실행
-분석과제 진행관리(분석조직)-모니터링
-결과공유/ 개선 (과제 결과폴)
5.의사코드: 시스템 구현단계의 알고리즘 설명서는 상세설명을 위해 의사코드 수준의 작성이 필요
-self service analytics: 빅데이터 분석전문가(분산처리는 안됨)
'자격증 > ADsP' 카테고리의 다른 글
32회 ADsP 합격 +굿 노트로 최종공부한 파일 (0) | 2023.01.15 |
---|---|
ADsP 3과목 (0) | 2023.01.13 |