1. 데이터 전처리 (Data Preprocessing)의 개념 개념 데이터의 정합성과 가치 확보 위해 정제, 통합, 변환 등의 과정을 통해 데이터 분석 및 처리에 적합하도록 데이터를 조작하는 과정 완벽한 데이터 획득은 실제로 불가능하며, GIGO 이론에 따라 고품질의 데이터 분석을 위해서는 데이터 측정/수집 과정에서 발생한 오류에 대해 중복 제어, 모순/불일치 해소, 결측치/이상치를 처리하여 분석에 용이한 형태로 변환하여 제공하는
1. 비즈니스 신뢰성과 효율성 확보, DQC (Database Quality Certification)의 개요 개념 공공/민간에서 개발하여 활용 중인 정보시스템의 데이터 품질을 확보하기 위해 데이터 자체 품질과 데이터 관리체계, 데이터 보안 요소를 심사·인증하는 제도 필요성 인증 종목 한국데이터산업진흥원에서는 데이터 인증을 위해 데이터 품질 인증(DQC-V), 데이터 관리 인증(DQC-M), 데이터 보안 인증(DQC-V)의 각 종목 별 인증 시행 2. DQC의 인증
I. 비정형 데이터 저장 기반, 오브젝트 스토리지 가. 오브젝트 스토리지의 개념 데이터에 식별자를 부여하여 컨테이너에 저장, 필요 시 식별자로 호출하여 비정형 데이터 처리에 우수한 저장장치 나. 오브젝트 스토리지의 특징 메타데이터 – 식별자 기반 오브젝트 단위 서비스 중복 최소화 – 단일 오브젝트를 여러 사용자가 공유 컨텐츠 수명 – 컨텐츠 수명(보유 기간) 주기 지정 가능 II.
I. 원본 데이터 복구 기법, 이레이저 코딩 개념 사용 코드 데이터 손실 시 인코딩된 데이터의 디코딩 과정을 통해 원본 데이터를 복구하는 스토리지 데이터 복구 기법 – Reed-Solomon Code – Tahoe-LAFS – Weaver Code II. 이레이저 코딩 절차도 및 세부 과정 가. 이레이저 코딩 절차도 Data→n개→k개→n+k개→(손실)→n개 나. 이레이저 코딩 절차 별 상세 과정 # 과정
I. 데이터 사용성 개선, 데이터 품질 관리 가. 데이터 품질 관리(DQM)의 개념 데이터 활용 목적을 달성하기 위해 데이터 품질 진단 및 획득, 지속 유지, 개선시키는 활동 나. 데이터 품질 관리의 필요성 II. 데이터 품질 용어 및 품질 관리 프레임워크 III. 기본 데이터 체계 품질 관리 구조 가. 데이터 품질 관리 구조 나. 데이터