Whisky-Empfehlungssystem mit One-Hot Encoding & Embeddings
Scotland Trading verfügt über ein Sortiment von 100 Whiskys. Der Kunde stellt auf dem Web-Shop eine Suchanfrage:
Ich möchte einen Whisky mit Zimt und Vanille.
"Jede Kategorie wird durch einen binären Vektor repräsentiert, bei dem genau eine Position den Wert 1 hat, alle anderen den Wert 0.
Cosine Similarity = (A · B) / (||A|| × ||B||)
||Kundensuche|| = √(1² + 1²) = √2 ≈ 1.414
||Lagavulin|| = √(1² + 1² + 1²) = √3 ≈ 1.732
Cosine Similarity = 0 / (1.414 × 1.732) = 0.00
||Glenfiddich|| = √(1² + 1² + 1²) = √3 ≈ 1.732
Cosine Similarity = 1 / (1.414 × 1.732) = 1 / 2.449 ≈ 0.41
||Balvenie|| = √(1² + 1² + 1²) = √3 ≈ 1.732
Cosine Similarity = 2 / (1.414 × 1.732) = 2 / 2.449 ≈ 0.82
Kategorien werden auf numerische Vektoren abgebildet, die semantische Nähe repräsentieren. Dimensionen: [Fruchtig, Würzig, Rauchig]
Zimt: [0.4, 0.9, 0.1]
Vanille: [0.3, 0.8, 0.1]
Mittelwert: [0.35, 0.85, 0.10]
Rauch: [0.1, 0.2, 0.9]
Torf: [0.1, 0.1, 0.8]
Meersalz: [0.0, 0.3, 0.7]
Fruchtig: (0.1 + 0.1 + 0.0) / 3 = 0.067
Würzig: (0.2 + 0.1 + 0.3) / 3 = 0.200
Rauchig: (0.9 + 0.8 + 0.7) / 3 = 0.800
Mittelwert: [0.067, 0.200, 0.800]
Birne: [0.9, 0.1, 0.0]
Vanille: [0.3, 0.8, 0.1]
Eiche: [0.2, 0.6, 0.3]
Fruchtig: (0.9 + 0.3 + 0.2) / 3 = 0.467
Würzig: (0.1 + 0.8 + 0.6) / 3 = 0.500
Rauchig: (0.0 + 0.1 + 0.3) / 3 = 0.133
Mittelwert: [0.467, 0.500, 0.133]
Honig: [0.7, 0.6, 0.0]
Zimt: [0.4, 0.9, 0.1]
Vanille: [0.3, 0.8, 0.1]
Fruchtig: (0.7 + 0.4 + 0.3) / 3 = 0.467
Würzig: (0.6 + 0.9 + 0.8) / 3 = 0.767
Rauchig: (0.0 + 0.1 + 0.1) / 3 = 0.067
Mittelwert: [0.467, 0.767, 0.067]
< 100 Kategorien, eindeutig abgegrenzt, Interpretierbarkeit wichtig
> 100 Kategorien, semantische Beziehungen wichtig, Freitext/NLP
| Methode | Empfehlung | Score |
|---|---|---|
| One-Hot Encoding | Balvenie 14 | 0.82 |
| Embeddings | Balvenie 14 | 0.99 |
Beide Methoden empfehlen Balvenie 14, da dieser Whisky sowohl Zimt als auch Vanille enthält. Der höhere Score bei Embeddings (0.99 vs. 0.82) zeigt, dass diese Methode die semantische Ähnlichkeit (beide Aromen sind "würzig") besser erfasst.