여러 단어의 연관성을 알아볼 수 있는 워드 임베딩 입니다
모델 로딩 중...
각각의 단어를 컴퓨터가 이해할 수 있게 숫자로 변환하는 방식입니다. 더 많은 차원을 활용할수록 단어의 의미를 깊게 표현할 수 있습니다.
모델마다 사용되는 임베딩 값이 다릅니다. 모든 단어에 이러한 임베딩 값이 포함되어야 하며, 언어모델이 기본적으로 커질 수 밖에 없는 이유입니다.
여기서는 GloVe (Global Vectors) 방식을 사용합니다. 트위터 데이터로 학습되었으며, 비슷한 의미를 가진 단어끼리는 유사한 임베딩 값을 갖습니다.
💡 참고: 이 모델은 200차원의 임베딩을 사용합니다. ChatGPT의 경우 1,536차원, 또는 3,072차원을 사용합니다.
임베딩 벡터끼리 더하고 빼면서 단어의 의미를 연산할 수 있습니다. 연관 단어는 Manhattan Distance (L1 거리)로 찾습니다.
예시: “한국 - 서울 + 도쿄”
→ “한국”의 의미에서 “서울”을 빼고 “도쿄”를 더한 벡터와 가장 가까운 단어를 찾습니다.