1. 데이터 전처리 (Data Preprocessing)의 개념 개념 데이터의 정합성과 가치 확보 위해 정제, 통합, 변환 등의 과정을 통해 데이터 분석 및 처리에 적합하도록 데이터를 조작하는 과정 완벽한 데이터 획득은 실제로 불가능하며, GIGO 이론에 따라 고품질의 데이터 분석을 위해서는 데이터 측정/수집 과정에서 발생한 오류에 대해 중복 제어, 모순/불일치 해소, 결측치/이상치를 처리하여 분석에 용이한 형태로 변환하여 제공하는
I. 하이퍼파라미터의 개념 최적의 딥러닝 모델 구현을 위해 학습률이나 배치크기, 훈련 반복 횟수, 가중치 초기화 방법 등 인간의 선험적 지식을 기반으로 딥러닝 모델에 설정하는 변수 II. 하이퍼파라미터의 종류 종류 설명 적용 시 고려사항 학습률 (Learning Rate) gradient의 방향으로 얼마나 빠르게 이동할 것인지 결정하는 변수 – 너무 작으면 학습의 속도가 늦고, 너무 크면 학습 불가
I. 성능 향상을 위한 데이터 중복 허용, 반정규화 개념 필요성 데이터베이스 정규화 후 성능향상, 개발편의성 등 위해 정규화기법 위배행위 의도적 수행 기법 – 다수 Join시 성능하락 방지 – 개발 및 운영 단순화 – DB 검색 성능 향상 II. 반정규화 필요 대상 및 유형 가. 반정규화 필요 대상 구분 필요 대상 설명 접근빈도 측면 고빈도 테이블 – 단일
I. 데이터 일관성 보장의 이해, 함수적 종속성 개념도 개념 – 두 튜플 T1, T2에 대하여, T1[x]=T2[x]이면, T1[y]=T2[y] 데이터 속성의 의미와 속성 간 상호 관계로부터 발생하는 제약조건(Constraints)의 일종, FD – FD(Functional Dependency) II. 함수적 종속성의 유형 유형 종속성 사례 설명 정규화 완전/부분 함수 종속 [학번] → 이름: 부분 [학과,과목]→성적:완전 – 부분함수 종속 제거 2차 정규화 적용