워드 임베딩 계산기

연관단어 찾기

여러 단어의 연관성을 알아볼 수 있는 워드 임베딩 입니다

예시
🇰🇷 한국 - 서울 + 도쿄 = ?
💝 사랑 - 이별 = ?
🎯 성공 - 공부 = ?

모델 로딩 중...

💡이론

📚 임베딩(Embedding)이란?

각각의 단어를 컴퓨터가 이해할 수 있게 숫자로 변환하는 방식입니다. 더 많은 차원을 활용할수록 단어의 의미를 깊게 표현할 수 있습니다.
모델마다 사용되는 임베딩 값이 다릅니다. 모든 단어에 이러한 임베딩 값이 포함되어야 하며, 언어모델이 기본적으로 커질 수 밖에 없는 이유입니다.

🔤 GloVe 모델

여기서는 GloVe (Global Vectors) 방식을 사용합니다. 트위터 데이터로 학습되었으며, 비슷한 의미를 가진 단어끼리는 유사한 임베딩 값을 갖습니다.

💡 참고: 이 모델은 200차원의 임베딩을 사용합니다. ChatGPT의 경우 1,536차원, 또는 3,072차원을 사용합니다.

🧮 단어 연산 원리

임베딩 벡터끼리 더하고 빼면서 단어의 의미를 연산할 수 있습니다. 연관 단어는 Manhattan Distance (L1 거리)로 찾습니다.

예시: “한국 - 서울 + 도쿄”

→ “한국”의 의미에서 “서울”을 빼고 “도쿄”를 더한 벡터와 가장 가까운 단어를 찾습니다.