Word2Vec

I. word embedding 성능 향상, Word2Vec

가. Word2Vec의 개념

단어를 벡터 평면에 배치하여 컴퓨터가 인식할 수 있도록 문맥적 의미를 보존하는 워드임베딩 기법

– 출력 스코어에 Softmax 적용하여 정답과 비교해 역전파 수행

 

II. Word2Vec 신경망 연산 기법 및 학습 모델

가. Word2Vec의 신경망 연산 기법

– 은닉 벡터(h) = 입력(x) x 입력 가중치 행렬(W)
– 출력(y) = 은닉 벡터(h) x 출력 가중치 행렬(W’)

나. Word2Vec의 학습 모델

모델개념도프로세스
CBOW① One-Hot Encoding 삽입
② Projection벡터평균적용
③ Matrix 연산후 출력전송
④ Softmax 계산, 단어비교
Skip-
gram
① One-Hot Encoding 삽입
② Projection요소 1:1 대응
③ Matrix 연산후 출력전송
④ Softmax 계산, 단어비교

– Skip-gram은 말뭉치 내 존재 모든 단어를 학습하며, CBOW보다 학습 기회가 많아 일반적으로 사용

 

III. Word2Vec 성능 확보를 위한 기술

단어 빈도 기반 SubsamplingNegative Sampling
– 코퍼스빈출단어 학습량낮춤
– 업데이트 기회가 많은 단어의 학습량을 확률적 감소
– 일부 단어 대상 확률 계산
– 지정 크기 내 미출현 단어 추출 후 전체 단어셋 구성

– 자연어처리 기술 중 학습속도와 성능이 우수하여 활용 증가

 

IV. Word2Vec 기반 문서 간 유사도 측정 기법

가. 문서 간 유사도 측정 절차도

– 문서 포함 단어와 중요도를 벡터 공간 모델 형태로 저장, 문서 입력 및 변환하여 유사도 비교를 통해 추천

나. 문서 간 유사도 측정 세부 절차 설명

구분절차설명
훈련
과정
쿼리문서
그래프 추출

– PMI 지수 활용 노드 간 관계 표현
페이지랭크사용
단어 중요도 추출

– 노드 내 숫자는 중요도를 의미
word2vec
모델링

– 단어 간 유사도 행렬 사용
비교
과정
단어 유사도
기반 쿼리확장

– 쿼리 확장 시 각 요소 중요도 평가
문서 간 비교
결론 출력

– 문서 셋 벡터 간 유사도 기준 추천

– 문서 훈련 및 비교를 통해 검색, NLP, 정보제공 분야에 활용

 

V. Word2Vec의 활용 분야

활용 분야설명
지식, 검색, 정보제공, 챗봇– 유사어 학습을 통해 지식 정보 검색, Q&A, 챗봇을 활용한 무인 상담 등
음성 인식, NLP 가상비서, Zero UI– 음성과 단어/문맥 연계로 의미 파악
– 대화 의미 분석을 통한 요구사항 수행

– 이 외 유사 상품 추천, 데이터 큐레이션 등 다방면에 활용 가능

콘텐츠 사용 시 출처 표기 부탁 드리고, 댓글은 큰 힘이 됩니다^^