เมื่อใดควรใช้ความคล้ายคลึงกันของโคไซน์

เมื่อใดควรใช้ความคล้ายคลึงกันของโคไซน์
เมื่อใดควรใช้ความคล้ายคลึงกันของโคไซน์
Anonim

ความคล้ายคลึงของโคไซน์โดยทั่วไปจะใช้เป็นตัววัดสำหรับ ระยะการวัด เมื่อขนาดของเวกเตอร์ไม่สำคัญ สิ่งนี้เกิดขึ้นเช่นเมื่อทำงานกับข้อมูลข้อความที่แสดงโดยการนับจำนวนคำ

ฉันควรใช้ความคล้ายคลึงกันของโคไซน์เมื่อใด

ความคล้ายคลึงของโคไซน์วัดความคล้ายคลึงระหว่างเวกเตอร์สองตัวของพื้นที่ผลิตภัณฑ์ภายใน วัดโดยโคไซน์ของมุมระหว่างเวกเตอร์สองตัวและกำหนดว่าเวกเตอร์สองตัวชี้ไปในทิศทางเดียวกันโดยประมาณหรือไม่ มักใช้เพื่อวัดความคล้ายคลึงของเอกสารใน การวิเคราะห์ข้อความ.

เหตุใดจึงใช้ความคล้ายคลึงกันของโคไซน์แทนระยะทางแบบยุคลิด

ความคล้ายคลึงกันของโคไซน์นั้นได้เปรียบเพราะถึงแม้เอกสารที่เหมือนกันทั้งสองฉบับจะห่างกันด้วยระยะห่างแบบยุคลิดเนื่องจากขนาด (เช่น คำว่า 'คริกเก็ต' ปรากฏ 50 ครั้งในเอกสารฉบับหนึ่งและ 10 ครั้งในอีกฉบับหนึ่ง) ก็ทำได้ ยังคงมี มุมที่เล็กกว่าระหว่างพวกเขา มุมที่เล็กลง ความคล้ายคลึงกันที่สูงขึ้น

ความเหมือนโคไซน์กับระยะทางแบบยุคลิดต่างกันอย่างไร

ในบทความนี้ เราได้ศึกษาคำจำกัดความอย่างเป็นทางการของระยะทางแบบยุคลิดและความคล้ายคลึงของโคไซน์ ระยะทางแบบยุคลิดสอดคล้องกับ บรรทัดฐาน L2 ของความแตกต่างระหว่างเวกเตอร์ ความคล้ายคลึงของโคไซน์เป็นสัดส่วนกับผลคูณดอทของเวกเตอร์สองตัวและเป็นสัดส่วนผกผันกับผลคูณของขนาดของพวกมัน

ความเหมือนของโคไซน์กับระยะทางโคไซน์ต่างกันอย่างไร

โดยปกติ ผู้คนใช้ความคล้ายคลึงของโคไซน์เป็นตัวชี้วัดความคล้ายคลึงกันระหว่างเวกเตอร์ ตอนนี้ สามารถกำหนดระยะทางเป็น 1-cos_similarity สัญชาตญาณเบื้องหลังนี้คือถ้าเวกเตอร์ 2 ตัวเหมือนกันอย่างสมบูรณ์ ความเหมือนจะเป็น 1 (มุม=0) ดังนั้น ระยะทางจะเป็น 0 (1-1=0)