การทำให้เป็นมาตรฐานคือ ใช้เพื่อกำจัดข้อมูลที่ซ้ำซ้อน และทำให้แน่ใจว่ามีการสร้างคลัสเตอร์ที่มีคุณภาพดีซึ่งสามารถปรับปรุงประสิทธิภาพของอัลกอริธึมการจัดกลุ่มได้ ดังนั้นมันจึงกลายเป็นขั้นตอนสำคัญก่อนที่จะทำคลัสเตอร์เป็นระยะห่างแบบยุคลิด มีความอ่อนไหวต่อการเปลี่ยนแปลงในความแตกต่างอย่างมาก[3].
เราจำเป็นต้องทำให้ข้อมูลเป็นปกติสำหรับการจัดกลุ่ม K-mean หรือไม่
ในวิธี k-NN คุณลักษณะที่ใช้สำหรับการจัดกลุ่มต้องถูกวัดในหน่วยที่เปรียบเทียบกันได้ ในกรณีนี้ หน่วยจะไม่เป็นปัญหาเนื่องจากคุณลักษณะทั้ง 6 จะแสดงในระดับ 5 จุด ไม่จำเป็นต้องทำให้เป็นมาตรฐานหรือมาตรฐาน.
คุณเตรียมข้อมูลก่อนทำคลัสเตอร์อย่างไร
การเตรียมข้อมูล
ในการวิเคราะห์คลัสเตอร์ใน R โดยทั่วไป ข้อมูลควรถูกจัดเตรียมดังนี้: แถวเป็นการสังเกต (บุคคล) และคอลัมน์คือตัวแปร ค่าที่ขาดหายไปในข้อมูลจะต้องถูกลบออกหรือประมาณการ ข้อมูลจะต้องเป็นมาตรฐาน (เช่น ปรับขนาด) เพื่อให้สามารถเปรียบเทียบตัวแปรได้.
ควรปรับขนาดข้อมูลสำหรับการทำคลัสเตอร์หรือไม่
ในการจัดกลุ่ม คุณคำนวณความคล้ายคลึงระหว่างสองตัวอย่างโดย รวมข้อมูลคุณลักษณะทั้งหมด สำหรับตัวอย่างเหล่านั้นให้เป็นค่าตัวเลข การรวมข้อมูลคุณสมบัติต้องการให้ข้อมูลมีขนาดเท่ากัน
เหตุใดการทำให้ฟีเจอร์ Normalize ก่อนทำคลัสเตอร์จึงสำคัญ
การทำให้เป็นมาตรฐานเป็นก้าวสำคัญของ Dataการประมวลผลล่วงหน้า
ตามที่อธิบายไว้ในบทความนี้ ค่า k หมายถึงย่อฟังก์ชันข้อผิดพลาดให้เหลือน้อยที่สุดโดยใช้อัลกอริทึมของนิวตัน เช่น อัลกอริธึมการปรับให้เหมาะสมตามการไล่ระดับสี การทำให้ข้อมูลเป็นปกติจะปรับปรุงการบรรจบกันของอัลกอริทึมดังกล่าว.