들어가기 전에
자연어 처리에 첫발을 내딛으신 것을 축하합니다!! 🎉
이번 강의에서는 자연어 처리의 기본이 되는 Word Embedding에 대해서 알아봅니다.
여러분은 지금 자연어처리에서 가장 중요한 부분을 학습 중이십니다.
학습 목표
Word Embedding 기법 중 Word2Vec를 통해 단어를 벡터로 임베딩하는 방법을 알아봅니다.
핵심 단어
- Word Embedding
- Word2Vec
- window size
- Embedding
강의 듣기
들어가기 전에
자연어 처리에 첫발을 내딛으신 것을 축하합니다!! 🎉
이번 강의에서는 자연어 처리의 기본이 되는 Word Embedding에 대해서 알아봅니다.
여러분은 지금 자연어처리에서 가장 중요한 부분을 학습 중이십니다.
학습 목표
Word Embedding 기법 중 Word2Vec를 통해 단어를 벡터로 임베딩하는 방법을 알아봅니다.
핵심 단어
강의 듣기
Word Embedding 이란?
'워드 임베딩'은 각 단어를 좌표공간에 최적의 벡터로 표현하는(임베딩하는) 기법을 말합니다.
그렇다면 표현된 벡터값이 '최적'인지를 어떻게 알 수 있을까요? 예를 들어 알아봅시다.
위 단어들을 벡터를 통해 좌표공간으로 표현한다면, 'kitty'와 'cat'은 비슷한 위치할 것입니다. 그러나 'hamburder'는 꽤 먼 거리에 표현되겠지요? 이와 같이 유사한 단어는 가까이, 유사하지 않은 단어는 멀리 위치하는 것을 '최적의 좌표값'으로 표현할 수 있습니다.
또 다른 예로 감정을 분류를 한다고 했을 때에
Word2Vec Idea
** 토크나이징(Tokenizing)이란? : 말그대로 문자(Text)를 컴퓨터가 이해할 수 있는 Token이라는 숫자 형태로 바꿔주는 행위
Word2Vec의 계산
Word2Vec의 특성
** 워드투벡터 성능 확인하기 : http://w.elnn.kr/search
Application of Word2Vec
생각해보기
1) Word2vec 방식으로 생성한 "서울"의 벡터에서 "한국"을 빼고, "미국"을 더하면 어떤 단어의 벡터와 유사할까요?
2) Word2Vec이 되기까지 연산되는 행렬곱을 손으로 써보며 이해해봅시다.
참고자료
https://github.com
https://word2vec.kr
comment
내용이 정말 흥미롭네요. 좋은 강의 감사합니다!