I. 효율적인 자료검색 도구, 검색엔진
검색엔진의 개념
- 데이터베이스에 저장된 컨텐츠를 인터넷상에서 쉽게 찾을 수 있게 도와주는 소프트웨어 혹은 사이트
이용 주체에 따른 검색엔진의 의미
사용자 | 구성요소 | 기업 |
---|---|---|
정보검색 도구 | 검색엔진 | 마케팅 도구 |
정보검색 방법 | 키워드 | 고객의 욕구 |
정보 | 검색 결과 | 마케팅 채널 |
II. 검색엔진 구성도 및 구성요소
검색엔진의 구성도
검색엔진의 구성요소
구성요소 | 역할 | 설명 |
---|---|---|
문서 수집기 (Crawler) | 위치정보 수집 | – 새로 생성, 업데이트 문서, 파일 등 수집 |
색인기 (Indexer) | 위치정보 저장 색인데이터베이스 | – 수집 위치 정보 저장 – 수집된 정보 위치DB |
검색기 (Searcher) | 색인데이터베이스 검색 | – 검색한 키워드에 대한 색인 DB 검색 모듈 |
질의관리기 (Query Manager) | 검색결과 전달 | – Client와 검색기 사이 정보 전달 |
Filter 모듈 | 데이터 소스 처리 | – 다양한 형태의 데이터 소스를 처리 |
언어처리 모듈 | 형태소 분석기 | – 형태소 분석기와 같은 언어처리 모듈 |
외부 솔루션 연동 | 인터페이스 모듈 | – 인터페이스, 보안, 관리 모듈 등 추가 |
III. 검색엔진의 핵심, 색인어 구성절차
색인어 추출 방법
- 형태소 분석 통한 색인어 추출
- N-gram 방식 색인어 추출
구분 | 설명 |
---|---|
N-gram 방법 | – 글자를 겹쳐서 색인어 추출 방법 ex) 정보검색을 – “정보”, “보검”, “검색”, 등 |
N-gram 장점 | – 빠지는 정보 없이 모두 검색 가능 – 신조어 검색 가능, 색인어 리스트 구성 |
N-gram 단점 | – 틀린 내용 다수 포함, 검색품질 저하 – 색인어 리스트 크기가 커짐 |
N-gram 적용 | – 형태소 분석 오류 시 사용 – 문서의 건수가 적고, 재현율 우선 시 |
검색엔진에서 색인 및 검색 동작절차
- 색인동작 : 정보원 파일(DB/WEB) → 필터 → 색인작업(형태소분석
- 검색동작 : 검색 → 도치파일 → 순치 → Bridge → 미스터 → 실제 검색
IV. 검색엔진의 활용을 위한 향후 방안
최근 인터넷 정보화 현황
검색엔진의 향후 방향
- 다양한 데이터 폭증 등 처리하기 위한 Big Data 처리기술 필요
- 개인정보 수집 등 프라이버시 침해대응 기술 필요
- 자연어 처리(음성인식), 시맨틱 검색 등 지능형 검색 기능 필요