การทำให้ข้อกำหนดบทลงโทษเป็นมาตรฐานทำงานโดยให้น้ำหนักข้อมูลกับค่าเฉพาะ (เช่น ค่าเล็กน้อยใกล้ศูนย์) … การทำให้เป็นมาตรฐาน L1 เพิ่มโทษ L1 เท่ากับค่าสัมบูรณ์ของขนาดของสัมประสิทธิ์ กล่าวอีกนัยหนึ่ง มันจำกัดขนาดของสัมประสิทธิ์
การทำให้เป็นมาตรฐาน L1 และ L2 ทำงานอย่างไร
ความแตกต่างหลักระหว่างการทำให้เป็นมาตรฐาน L1 และ L2 คือ L1 การทำให้เป็นมาตรฐาน พยายามประมาณค่ามัธยฐานของข้อมูล ในขณะที่การทำให้เป็นมาตรฐาน L2 พยายามประมาณค่าเฉลี่ยของข้อมูลเป็น หลีกเลี่ยงการสวมใส่มากเกินไป … ค่านั้นจะเป็นค่ามัธยฐานของการกระจายข้อมูลในทางคณิตศาสตร์ด้วย
การทำให้เป็นมาตรฐาน L1 หรือ L2 ดีกว่าไหม
จากมุมมองเชิงปฏิบัติ L1 มีแนวโน้มที่จะลดค่าสัมประสิทธิ์เป็นศูนย์ ในขณะที่ L2 มีแนวโน้มที่จะลดค่าสัมประสิทธิ์อย่างเท่าเทียมกัน ดังนั้น L1 จึงมีประโยชน์สำหรับการเลือกคุณลักษณะ เนื่องจากเราสามารถปล่อยตัวแปรใดๆ ที่เกี่ยวข้องกับสัมประสิทธิ์ที่ไปที่ศูนย์ได้ ในทางกลับกัน L2 จะมีประโยชน์เมื่อคุณมีคุณสมบัติ collinear/codependent
Regularizer ทำงานอย่างไร
การทำให้เป็นมาตรฐานทำงานโดย เพิ่มโทษหรือเงื่อนไขความซับซ้อนหรือระยะเวลาการหดตัวด้วยผลรวมที่เหลือของกำลังสอง (RSS) ให้กับโมเดลที่ซับซ้อน β0, β1, ….. β หมายถึงค่าประมาณสัมประสิทธิ์สำหรับตัวแปรหรือตัวทำนายที่แตกต่างกัน (X) ซึ่งอธิบายน้ำหนักหรือขนาดที่แนบมากับคุณลักษณะตามลำดับ
การทำให้เป็นมาตรฐาน L1 ลดการโอเวอร์ฟิตติ้งได้อย่างไร
L1 Regularization หรือที่รู้จักในชื่อ L1 norm หรือ Lasso (ในปัญหาการถดถอย) การต่อสู้ overfitting โดยลดพารามิเตอร์ลงเหลือ 0