ความคล้ายคลึงของโคไซน์โดยทั่วไปจะใช้เป็นตัววัดสำหรับ ระยะการวัด เมื่อขนาดของเวกเตอร์ไม่สำคัญ สิ่งนี้เกิดขึ้นเช่นเมื่อทำงานกับข้อมูลข้อความที่แสดงโดยการนับจำนวนคำ
ฉันควรใช้ความคล้ายคลึงกันของโคไซน์เมื่อใด
ความคล้ายคลึงของโคไซน์วัดความคล้ายคลึงระหว่างเวกเตอร์สองตัวของพื้นที่ผลิตภัณฑ์ภายใน วัดโดยโคไซน์ของมุมระหว่างเวกเตอร์สองตัวและกำหนดว่าเวกเตอร์สองตัวชี้ไปในทิศทางเดียวกันโดยประมาณหรือไม่ มักใช้เพื่อวัดความคล้ายคลึงของเอกสารใน การวิเคราะห์ข้อความ.
เหตุใดจึงใช้ความคล้ายคลึงกันของโคไซน์แทนระยะทางแบบยุคลิด
ความคล้ายคลึงกันของโคไซน์นั้นได้เปรียบเพราะถึงแม้เอกสารที่เหมือนกันทั้งสองฉบับจะห่างกันด้วยระยะห่างแบบยุคลิดเนื่องจากขนาด (เช่น คำว่า 'คริกเก็ต' ปรากฏ 50 ครั้งในเอกสารฉบับหนึ่งและ 10 ครั้งในอีกฉบับหนึ่ง) ก็ทำได้ ยังคงมี มุมที่เล็กกว่าระหว่างพวกเขา มุมที่เล็กลง ความคล้ายคลึงกันที่สูงขึ้น
ความเหมือนโคไซน์กับระยะทางแบบยุคลิดต่างกันอย่างไร
ในบทความนี้ เราได้ศึกษาคำจำกัดความอย่างเป็นทางการของระยะทางแบบยุคลิดและความคล้ายคลึงของโคไซน์ ระยะทางแบบยุคลิดสอดคล้องกับ บรรทัดฐาน L2 ของความแตกต่างระหว่างเวกเตอร์ ความคล้ายคลึงของโคไซน์เป็นสัดส่วนกับผลคูณดอทของเวกเตอร์สองตัวและเป็นสัดส่วนผกผันกับผลคูณของขนาดของพวกมัน
ความเหมือนของโคไซน์กับระยะทางโคไซน์ต่างกันอย่างไร
โดยปกติ ผู้คนใช้ความคล้ายคลึงของโคไซน์เป็นตัวชี้วัดความคล้ายคลึงกันระหว่างเวกเตอร์ ตอนนี้ สามารถกำหนดระยะทางเป็น 1-cos_similarity สัญชาตญาณเบื้องหลังนี้คือถ้าเวกเตอร์ 2 ตัวเหมือนกันอย่างสมบูรณ์ ความเหมือนจะเป็น 1 (มุม=0) ดังนั้น ระยะทางจะเป็น 0 (1-1=0)