Bài 12: Lựa chọn tập hợp con tốt nhất trong học máy (Giải thích và ví dụ)


Trong lĩnh vực máy học, chúng ta thường quan tâm đến việc xây dựng mô hình bằng cách sử dụng một tập hợp các biến dự báo và một biến phản hồi . Mục tiêu của chúng ta là xây dựng một mô hình có thể sử dụng hiệu quả các biến dự báo để dự đoán giá trị của biến phản hồi.

Với một tập hợp p biến dự báo, có rất nhiều mô hình mà chúng ta có thể xây dựng. Một phương pháp mà chúng ta có thể sử dụng để chọn mô hình tốt nhất được gọi là  lựa chọn tập hợp con tốt nhất, với các bước thực hiện  như sau:

1. Gọi M0 biểu thị cho mô hình rỗng, không chứa biến dự báo. 

2. Với k = 1, 2,… p:

  • "Fit"  tất cả pCk mô hình chứa đúng k biến dự đoán.
  • Chọn mô hình tốt nhất trong số pCk mô hình này và gọi nó là Mk . Xác định "tốt nhất" là mô hình có R2 cao nhất hoặc tương đương với RSS thấp nhất.

3. Chọn một mô hình tốt nhất trong số M 0 … M p sử dụng lỗi dự đoán xác thực chéo, Cp, BIC, AIC hoặc R  đã điều chỉnh .

Lưu ý rằng đối với tập hợp  p biến dự báo, có thể có 2p mô hình.

Ví dụ về lựa chọn tập hợp con tốt nhất

Giả sử chúng ta có một tập dữ liệu với p = 3 biến dự báo và một biến phản hồi y. Để thực hiện lựa chọn tập hợp con tốt nhất với tập dữ liệu này, chúng ta sẽ fit với 2p = 2 3 = 8 mô hình sau:

  • Một mô hình không có yếu tố dự đoán
  • Một mô hình với dự đoán x1
  • Một mô hình với dự đoán x2
  • Một mô hình với dự đoán x3
  • Một mô hình với các yếu tố dự đoán x1 , x2
  • Một mô hình với các yếu tố dự đoán x1 , x3
  • Một mô hình với các yếu tố dự đoán x 2 , x 3
  • Một mô hình với các yếu tố dự đoán x1 , x2 , x3

Tiếp theo, chúng ta sẽ chọn mô hình có R2 cao nhất trong số mỗi nhóm mô hình có  k dự đoán. Ví dụ: cuối cùng chúng ta có thể chọn:

  • Một mô hình không có yếu tố dự đoán
  • Một mô hình với dự đoán x 2
  • Một mô hình với các yếu tố dự đoán x 1 , x 2
  • Một mô hình với các yếu tố dự đoán x 1 , x 2 , x 3

Tiếp theo, chúng ta sẽ thực hiện xác nhận chéo và chọn mô hình tốt nhất là mô hình dẫn đến sai số dự đoán thấp nhất, Cp, BIC, AIC hoặc R 2 được điều chỉnh.

Chẳng hạn: cuối cùng chúng ta có thể chọn mô hình sau làm mô hình "tốt nhất" vì nó tạo ra lỗi dự đoán xác thực chéo thấp nhất:

  • Một mô hình với các yếu tố dự đoán x 1 , x 2

Tiêu chí để Chọn Mô hình "Tốt nhất"

Bước cuối cùng của lựa chọn tập hợp con tốt nhất liên quan đến việc chọn mô hình có sai số dự đoán thấp nhất, Cp thấp nhất, BIC thấp nhất, AIC thấp nhất hoặc R 2 được điều chỉnh cao nhất .

Dưới đây là các công thức được sử dụng để tính toán từng chỉ số này:

Cp: (RSS + 2dσ̂)/n

AIC: (RSS + 2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS + log (n) dσ̂ 2 ) / n

Điều chỉnh R2 : 1 - ((RSS / (nd-1)) / (TSS / (n-1)))

ở đây:

  • d: Số lượng các yếu tố dự đoán
  • n: Tổng số quan sát
  • σ̂: Ước tính phương sai của lỗi liên quan đến mỗi phép đo phản hồi trong mô hình hồi quy
  • RSS:  Tổng bình phương còn lại của mô hình hồi quy
  • TSS: Tổng bình phương của mô hình hồi quy

Ưu và nhược điểm của Lựa chọn tập hợp con tốt nhất

Lựa chọn tập hợp con tốt nhất cung cấp những ưu điểm sau:

  • Đó là một cách tiếp cận đơn giản để hiểu và diễn giải.
  • Nó cho phép chúng ta xác định mô hình tốt nhất có thể vì chúng taxem xét tất cả các kết hợp của các biến dự báo.

Tuy nhiên, phương pháp này có những nhược điểm sau:

  • Chi phí cao về mặt tính toán. Đối với tập hợp các  biến dự báo p , có thể có 2p  mô hìnhVí dụ, với 10 biến dự báo, có 210 mô hình có thể được xem xét.
  • Bởi vì phải xem xét một số lượng lớn các mô hình, phương pháp này có khả năng tìm thấy một mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng không phải trên dữ liệu trong tương lai. Điều này có thể dẫn đến hiện tượng  overfitting (Xem lại bài về  Overfitting có trong loạt bài này).

Kết luận

Mặc dù lựa chọn tập hợp con tốt nhất dễ thực hiện và dễ hiểu, nhưng nó có thể không khả thi nếu ta đang làm việc với tập dữ liệu có một số lượng lớn các yếu tố dự đoán và nó có khả năng dẫn đến hiện tượng  overfitting.

Một phương pháp thay thế cho phương pháp này được gọi là lựa chọn theo từng bước (stepwise selection), hiệu quả hơn về mặt tính toán.


Nhận xét

Bài đăng phổ biến từ blog này

AI chatbot hỗ trợ cho GV lên kế hoạch dạy học STEAM theo quy trinh 5E (GV mầm non và GV Tiểu học)

Mô hình IRT 3PL

Trang blog của Nguyễn Thế Dũng - ĐHSP Huế. Mời đọc.