Cosine dan Ecludean Distance
Jarak dan similarity merupakan konsep penting dalam data mining, machine learning, dan sistem rekomendasi. Kedua konsep ini digunakan untuk mengukur seberapa mirip atau seberapa jauh dua objek berdasarkan nilai atribut yang mereka miliki. Dalam modul ini, kita akan mempelajari dua metode populer, yaitu Cosine Similarity dan Euclidean Distance, dilengkapi dengan contoh perhitungan manual menggunakan data berikut:
- Vektor A: A=[3,45,7,2]A = [3, 45, 7, 2]
- Vektor B: B=[2,54,13,15]B = [2, 54, 13, 15]
- Cosine Similarity
Cosine Similarity mengukur derajat kemiripan antara dua vektor dengan menghitung kosinus sudut di antara mereka. Nilai Cosine Similarity berkisar antara -1 hingga 1. Jika nilainya mendekati 1, kedua vektor sangat mirip.
Rumus Cosine Similarity
Di mana A dan B adalah dua vektor, dan Ai serta Bi adalah elemen-elemen vektor tersebut.
- Langkah perhitungan:
Dataset 1 (A) = [3,45,7,2
Dataset 2 (B) = [2,54,13,15]
a. Hitung perkalian elemen (dot product):
b. Hitung kuadrat elemen untuk setiap dataset:
c. Hitung akar kuadrat (norma) dari masing-masing dataset:
A B
d. Masukkan hasil ke rumus cosine similarity.
Hasil:
Cosine similarity antara dataset 1 dan dataset 2 adalah 0.973, yang menunjukkan kemiripan yang sangat tinggi (hampir 1).
2. Euclidean Distance
Euclidean Distance mengukur jarak lurus antara dua titik dalam ruang multidimensi. Semakin kecil jarak, semakin mirip kedua vektor.
Rumus Euclidean Distance
Euclidean Distance =
Di mana:
- xi dan yi adalah koordinat titik ke-i pada dua vektor/titik yang dibandingkan.
- nadalah jumlah dimensi.
Langkah-Langkah Perhitungan Manual
Contoh:
Misalkan kita punya dua vektor:
A=[3,45,7,2]
B=[2,54,13,15]
Hitung Selisih Kuadrat Setiap Elemen:
(x1−y1)2 = (3−2)2=1
(x2−y2)2= (45−54)2= (−9)2=81
(x3−y3)2= (7−13)2= (−6)2=36
(x4−y4)2= (2−15)2= (−13)2=169
Jumlahkan Selisih Kuadrat:
Total=1+81+36+169=287
- Ambil Akar Kuadrat dari Hasilnya:
Euclidean Distance=√287≈16.94
Kesimpulan: Euclidean Distance antara A dan B adalah 16.94, yang menunjukkan jarak cukup dekat antara kedua vektor.
Kesimpulan Akhir
- Cosine Similarity digunakan untuk mengukur kemiripan berbasis arah tanpa mempertimbangkan panjang vektor.
- Euclidean Distance digunakan untuk mengukur jarak secara langsung di ruang multidimensi.
Dengan memahami kedua metode ini, anda diharapkan dapat memilih pendekatan yang sesuai berdasarkan konteks data yang sedang dianalisis.
Latihan:
- Hitung Cosine Similarity dan Euclidean Distance untuk vektor:
- A=[5,10,15,20]
- B=[10,15,5,25]
- Jelaskan kapan lebih baik menggunakan Cosine Similarity dibandingkan Euclidean Distance.
Sumber Bacaan: