X

데이터 전처리 (Data Preprocessing)

1. 데이터 전처리 (Data Preprocessing)의 개념

개념 데이터의 정합성과 가치 확보 위해 정제, 통합, 변환 등의 과정을 통해 데이터 분석 및 처리에 적합하도록 데이터를 조작하는 과정
  • 완벽한 데이터 획득은 실제로 불가능하며, GIGO 이론에 따라 고품질의 데이터 분석을 위해서는 데이터 측정/수집 과정에서 발생한 오류에 대해 중복 제어, 모순/불일치 해소, 결측치/이상치를 처리하여 분석에 용이한 형태로 변환하여 제공하는 과정이 필수적으로 수반됨.
  • GIGO(Garbage-In Garbage-Out): 쓰레기를 넣으면 쓰레기가 나온다.

 

2. 데이터 전처리 절차 및 주요 기법

(1) 데이터 전처리 절차

(2) 데이터 전처리 단계 별 주요 기법

단계 주요 기법 역할 / 세부 기법
정제
(Cleaning)
결측값 (Missing value)
처리
– 결측값 제거(개체/속성), 입력(수동, 전역 상수)
– 결측값추정(회귀분석,베이지안,의사결정트리)
잡음 (Noise) 제거 – 오류/오차로 인한 경향성 훼손 방지
– 데이터 평활화(구간화, 회귀, 군집화)
통합
(Integration)
개체 (Entity) 식별 – 서로 다른 데이터 집합의 개체 식별
함수적 종속성, 메타데이터 활용
중복 제거 / 이상 해소 – 데이터 중복에 따른 공간 낭비/이상 발생 해소
– 정규화/반정규화, 유도 속성, 상관 분석
축소
(Reduction)
데이터 큐브 (Data Cube) – 다차원 집계 정보 추상화로 데이터 축소
– 데이터 큐브 슬라이싱, 큐브 격자
속성 부분집합 선택
(Attribute Subset Selection)
– 연관성이 낮거나 중복된 속성을 제거
– 의사결정 트리, 엔트로피, 지니 계수, 가지치기
차원 축소
(Dimensionality Reduction)
– 원천 데이터 부호화 및 압축
– 웨이블릿 변환, PCA, DWT, 회귀/로그선형 모형
수량 축소 – 표본 추출(데이터 샘플 부분집합 표현)
– 히스토그램 구간화, 군집화(그룹화)
변환
(Transfor
-mation)
정규화 (Normalization) – 데이터세트 범위의 차이를 공통 척도로 변경
– 최소-최대 및 Z-score 정규화, 소수 척도화
수치 데이터 이산화 – 엔트로피 기반 클래스 분포 계층적 이산화
– 카이제곱 x2 결합, 직관적 분할 이산화
집합화 (Aggregation) – 범주형 데이터 계층 생성
– 스키마 단계 생성, 명시적 그룹화
  • 데이터는 사용하려는 목적에 맞는 품질을 확보해야 하므로 완전성, 정밀성, 일관성 등 데이터 속성을 고려한 전처리 수행 필요

 

3. 데이터 전처리 시 데이터 품질 속성 고려사항

데이터 품질 속성 고려사항
정밀성 (accuracy) – 오류나 예상치에서 벗어나지 않도록 처리
완전성 (completeness) – 속성 값이나 관심 속성이 모두 존재하도록 확보
일관성 (consistency) – 데이터 값에 모순점이 없고 일관성을 확보
적시성 (timeliness) – 필요한 시점에서 사용 가능한 상태로 제공
신빙성 (believability) – 자료에 대한 신뢰도 확보
해석성 (interpretability) – 데이터를 이해하기 쉽도록 처리
  • 데이터 분석 부터 생성형 AI 모델 훈련 및 서비스까지 데이터 전처리는 다양한 데이터 활용 업무에 필수적인 과정이므로 효과적인 데이터 전처리를 위한 노력 및 연구 필요

 
[참고]

  • 카오스북, Python과 SQL을 활용한 실전 데이터 전처리
  • DIGITALSHIP, 데이터 전처리 기법 및 도구 소개
  • PGWiki, 데이터 마이닝 개념과 기법/데이터 전처리
Categories: 데이터베이스
도리: