DataScience

유사도 측정 방법: Cosine, Dot Product, Euclidean

Pro.Dev 2025. 1. 5. 18:54
반응형

유사도 측정 방법: Cosine, Dot Product, Euclidean

유사도 측정은 벡터 간의 관계를 수치화하여, 두 벡터가 얼마나 비슷한지를 나타냅니다. 주요 유사도 측정 방식인 Cosine Similarity, Dot Product, Euclidean Distance의 계산 방식과 특성을 아래에 정리했습니다.


1. Cosine Similarity (코사인 유사도)

개념

  • 두 벡터 간의 각도를 측정하여 유사도를 계산합니다.
  • 벡터의 크기는 무시하고, 방향(즉, 각도)에만 초점을 맞춥니다.
  • 1에 가까울수록 유사, -1에 가까울수록 비유사.

공식

cosine similarity=cos⁡(𝜃)=𝐴⋅𝐵∥𝐴∥∥𝐵∥

  • 𝐴⋅𝐵: 두 벡터의 내적
  • ∥𝐴∥: 벡터 A의 크기 (L2 노름)
  • ∥𝐵∥: 벡터 B의 크기 (L2 노름)

2. Dot Product (내적)

개념

  • 두 벡터 간의 크기와 방향을 모두 고려하여 유사도를 계산합니다.
  • 벡터의 크기 방향이 둘 다 중요한 경우에 사용합니다.

공식

dot product=𝐴⋅𝐵=∑𝑖=1𝑛𝐴𝑖×𝐵𝑖


3. Euclidean Distance (유클리드 거리)

개념

  • 두 벡터 간의 직선 거리(유클리드 거리)를 측정합니다.
  • 두 벡터가 가리키는 이 얼마나 떨어져 있는지를 계산합니다.

공식

euclidean distance=∥𝐴−𝐵∥=∑𝑖=1𝑛(𝐴𝑖−𝐵𝑖)2


4. 비교와 선택 기준

Cosine Similarity

  • 방향(각도)이 중요한 경우 사용.
  • NLP 및 텍스트 임베딩에서 주로 활용.

Dot Product

  • 크기와 방향 모두 중요한 경우.

Euclidean Distance

  • 두 벡터 간의 절대적 거리를 계산.
  • 이미지 및 클러스터링에서 주로 사용.

예제

𝐴=[1,2],𝐵=[4,6]

  • Cosine Similarity: cos⁡(𝜃)
  • Dot Product: (1×4)+(2×6)=16
  • Euclidean Distance: (1−4)2+(2−6)2=5
반응형