2019년 1월 22일
빅데이터 품질
I. 빅데이터 품질관리의 특징
데이터 활용 패러다임 | → | 빅데이터 특징 |
---|---|---|
– IT는 단순도구 아닌 가치 창출의 핵심 도구 – 데이터의 팽창 및 대량 비정형 분석 처리 기술 발전 | 빅 데 이 터 등 장 | – 기계, 프로그램에 의해 수집되는 대량의 데이터 – 미세하고 정밀한 데이터 – 데이터 소유자 불분명 |
- 데이터는 수동적 관리 대상에서 새로운 가치 창출 및 사회 현안 해결에 결정적 역할로 변화
II. 빅데이터의 주요 품질 요소
가. 빅데이터 특징에 따른 품질관리 접근방법
빅데이터의 특성 | 품질관리 접근방법 |
---|---|
– 기계, 프로그램에 의해 수집되는 대량의 데이터 | – 데이터 사용자의 오류 무시 – 데이터 수집 예외 기준수립 |
– 미세하고 정밀한 데이터 | – 개별 타당성 검증 불필요 – 개별 보다 전체 데이터 의미 |
– 데이터 소유자 불분명 | – 목적, 통제 없이 생산된 데이터의 품질기준 수립 필요 |
- 개별 데이터 타당성 보장 보다 빅데이터 개념 및 특성 측면 관리 항목 수준 품질 정의 필요
나. 빅데이터 주요 품질요소 및 품질 전략
주요 품질 요소 | 데이터 품질 전략 |
---|---|
정확성 (Accuracy) | – 사용 목적에 따른 정확성 기준 별도 적용 (접속사이트 분석과 사기 탐지 수준 다름) |
완전성 (Completeness) | – 필요한 데이터의 완전한 확보보다 필요한 데이터를 식별하는 수준 적용 가능 |
적시성 (Timeliness) | – 소멸성 강한 데이터의 품질 기준 수립 – 로그, 위치 데이터 등은 당시에만 타당성 |
일관성 (Consistency) | – 동일 데이터라도 사용 목적에 따른 수집기준으로 인해 데이터 의미 상이 |
- 빅데이터는 일반 데이터와 달리 품질은 정확성보다 충분성 개념으로 비즈니스 목적에 따라 관리
III. 효과적인 빅데이터 품질관리 방안
가. 효과적 빅데이터 품질관리 체계
나. 효과적 빅데이터 품질관리 방안
방안 | 설명 |
---|---|
비즈니스 영역 및 목적 관리 | – 정확성 보다 충분성 개념으로 비즈니스 영역과 목적에 따라 관리가 바람직 |
신뢰성 기준 수립 | – 소유하지 않은 외부 데이터 활용 시 내부적으로 데이터 신뢰성 기준 수립 필요 |
데이터 영역 제한 | – 관심 속성 및 관계 식별 기술 사용 – 데이터 품질 관련 영역 제한 전략 |
IV. 빅데이터 정확성, 신뢰성 향상 위한 품질관리 고려사항
가. 빅데이터 활용 촉진과 품질 향상 체계
- 원활한 빅데이터 활용 촉진과 품질향상을 위해 제도적 기반과 정보 환경 기축 구축이 필요
나. 빅데이터 품질관리 시 고려사항
고려사항 | 설명 |
---|---|
중복, 불일치 관리 | – 기업 및 기관이 보유한 정보의 품질 관리를 통한 데이터 중복성, 불일치성 관리 |
품질관리 가이드라인 | – 3V 데이터는 특성상 기존과 다른 품질 기준, 관리 프로세스 등 전략 수립 필요 |
품질 인증 방안 연구 | – 빅데이터의 자원 품질 보장 및 활용 극대화 위한 품질 인증 방안 연구 필요 |
- 빅데이터 활용 결과의 정확성 및 신뢰성 향상을 위해 빅데이터 품질 관리 체계 구축 필요