검색엔진 (Search Engine)

I. 효율적인 자료검색 도구, 검색엔진

검색엔진의 개념

  • 데이터베이스에 저장된 컨텐츠를 인터넷상에서 쉽게 찾을 수 있게 도와주는 소프트웨어 혹은 사이트

이용 주체에 따른 검색엔진의 의미

사용자구성요소기업
정보검색 도구검색엔진마케팅 도구
정보검색 방법키워드고객의 욕구
정보검색 결과마케팅 채널

II. 검색엔진 구성도 및 구성요소

검색엔진의 구성도

검색엔진의 구성요소

구성요소역할설명
문서 수집기

(Crawler)

위치정보

수집

– 새로 생성, 업데이트 문서, 파일 등 수집
색인기

(Indexer)

위치정보 저장

색인데이터베이스

– 수집 위치 정보 저장

– 수집된 정보 위치DB

검색기

(Searcher)

색인데이터베이스

검색

– 검색한 키워드에 대한 색인 DB 검색 모듈
질의관리기

(Query Manager)

검색결과

전달

– Client와 검색기 사이 정보 전달
Filter 모듈데이터 소스

처리

– 다양한 형태의 데이터 소스를 처리
언어처리

모듈

형태소

분석기

– 형태소 분석기와 같은 언어처리 모듈
외부 솔루션

연동

인터페이스

모듈

– 인터페이스, 보안, 관리 모듈 등 추가

III. 검색엔진의 핵심, 색인어 구성절차

색인어 추출 방법

  • 형태소 분석 통한 색인어 추출
  • N-gram 방식 색인어 추출
구분설명
N-gram 방법– 글자를 겹쳐서 색인어 추출 방법

ex) 정보검색을 – “정보”, “보검”, “검색”, 등

N-gram 장점– 빠지는 정보 없이 모두 검색 가능

– 신조어 검색 가능, 색인어 리스트 구성

N-gram 단점– 틀린 내용 다수 포함, 검색품질 저하

– 색인어 리스트 크기가 커짐

N-gram 적용– 형태소 분석 오류 시 사용

– 문서의 건수가 적고, 재현율 우선 시

검색엔진에서 색인 및 검색 동작절차

  • 색인동작 : 정보원 파일(DB/WEB) → 필터 → 색인작업(형태소분석
  • 검색동작 : 검색 → 도치파일 → 순치 → Bridge → 미스터 → 실제 검색

IV. 검색엔진의 활용을 위한 향후 방안

최근 인터넷 정보화 현황

검색엔진의 향후 방향

  • 다양한 데이터 폭증 등 처리하기 위한 Big Data 처리기술 필요
  • 개인정보 수집 등 프라이버시 침해대응 기술 필요
  • 자연어 처리(음성인식), 시맨틱 검색 등 지능형 검색 기능 필요

 

콘텐츠 사용 시 출처 표기 부탁 드리고, 궁금한 점이나 의견은 댓글 남겨주세요^^