Bài 3: Cân bằng phương sai và độ lệch trong học máy.
Để đánh giá hiệu suất của mô hình trên tập dữ liệu, chúng ta cần đo lường mức độ phù hợp của các dự đoán của mô hình với dữ liệu quan sát.
Đối với các mô hình hồi quy , số liệu được sử dụng phổ biến nhất là sai số bình phương trung bình (MSE), được tính như sau:
MSE = (1 / n) * Σ (y i - f (x i )) 2
ở đâu:
- n: Tổng số quan sát
- yi : Giá trị phản hồi của lần quan sát thứ i
- f (xi ): Giá trị phản hồi dự đoán của lần quan sát thứ i
Các dự đoán của mô hình càng gần với các quan sát, MSE sẽ càng nhỏ.
Tuy nhiên, chúng ta chỉ quan tâm đến MSE thử nghiệm, tức MSE khi mô hình của chúng ta được áp dụng cho dữ liệu dự báo. Điều này, là do chúng ta chỉ quan tâm đến cách mà mô hình sẽ hoạt động trên dữ liệu dự báo, không phải dữ liệu hiện có.
MSE thử nghiệm có thể được phân tách thành hai phần:
(1) Phương sai: Đề cập đến giá trị mà hàm f của chúng ta sẽ thay đổi nếu chúng ta ước tính nó bằng cách sử dụng một tập huấn luyện khác.
(2) Độ lệch: Đề cập đến sai số được tính, khi tính gần đúng một vấn đề trong cuộc sống thực.
Ta có công thức sau:
Test MSE = Var(f̂(x0)) + [Bias(f̂(x0))]2 + Var(ε)
Test MSE = Variance + Bias2 + Irreducible error
Ở đây:
- Bias: Độ lệch
- Irreducible error - Sai số không điều chỉnh được, là sai số không thể giảm được bằng bất kỳ mô hình nào, đơn giản là vì luôn tồn tại một số nhiễu trong mối quan hệ giữa tập hợp các biến giải thích và biến phản hồi .
Các mô hình có độ lệch cao có xu hướng có phương sai thấp. Ví dụ, các mô hình hồi quy tuyến tính có xu hướng có độ lệch cao (giả định mối quan hệ tuyến tính đơn giản giữa các biến giải thích và biến phản hồi) và phương sai thấp (các ước lượng của mô hình sẽ không thay đổi nhiều từ mẫu này sang mẫu tiếp theo).
Tuy nhiên, các mô hình có độ lệch thấp có xu hướng có phương sai cao. Ví dụ, các mô hình phi tuyến tính phức tạp có xu hướng có độ lệch thấp (không giả định mối quan hệ nhất định giữa biến giải thích và biến phản hồi) với phương sai cao (ước tính của mô hình có thể thay đổi rất nhiều từ mẫu đào tạo này sang mẫu tiếp theo).
Cân bằng phương sai lệch
Cân bằng phương sai lệch, đề cập đến sự cân bằng diễn ra, khi chúng ta giảm độ lệch thường làm tăng phương sai và ngược lại chọn phương sai thấp hơn thường làm tăng độ lệch.
Biểu đồ sau cung cấp một cách để hình dung sự cân bằng này:
Tổng sai số giảm khi độ phức tạp của một mô hình tăng lên nhưng chỉ đến một thời điểm nhất định. Qua một thời điểm nhất định, phương sai bắt đầu tăng và tổng sai số cũng tăng.
Trong thực tế, chúng tôi chỉ quan tâm đến việc giảm thiểu tổng sai số của một mô hình, không nhất thiết phải giảm thiểu phương sai hoặc độ chệch. Nó chỉ ra rằng cách để giảm thiểu tổng sai số là đạt được sự cân bằng phù hợp giữa phương sai và độ chệch.
Nói cách khác, chúng ta cần xây dựng một mô hình vừa đủ để nắm bắt mối quan hệ thực sự giữa các biến giải thích và biến phản hồi, nhưng không quá phức tạp để mô hình không xác định ra các mẫu không thực sự tồn tại.
Khi một mô hình quá phức tạp, nó sẽ làm quá tải dữ liệu. Bởi vì mô hình cần "suy diễn" quá phức tạp để tìm thấy các mẫu trong dữ liệu huấn luyện, mà chỉ do cơ hội ngẫu nhiên gây ra. Loại mô hình này có khả năng hoạt động kém trên dữ liệu dự báo.
Nhưng khi một mô hình quá đơn giản, nó sẽ không phù hợp với dữ liệu. Điều này xảy ra bởi vì mô hình đã giả định mối quan hệ thực sự giữa các biến giải thích và biến phản hồi đơn giản hơn so với thực tế.
Cách để chọn mô hình tối ưu trong học máy là đạt được sự cân bằng giữa độ lệch và phương sai để có thể giảm thiểu lỗi thử nghiệm của mô hình trên dữ liệu dự báo trong tương lai.
Trong thực tế, cách phổ biến nhất để giảm thiểu MSE thử nghiệm là sử dụng đánh giá chéo (cross-validation.).
Nhận xét
Đăng nhận xét