Bài 13: Lựa chọn theo từng bước - Hồi quy từng bước (Stepwise Selection - Stepwise Regression)

Trong lĩnh vực máy học, mục tiêu của chúng ta là xây dựng một mô hình có thể sử dụng hiệu quả một tập hợp các biến dự báo để dự đoán giá trị của một số biến phản hồi .

Với một tập hợp  p tổng biến dự báo, có rất nhiều mô hình mà chúng ta có thể xây dựng. Một phương pháp mà chúng ta có thể sử dụng để chọn mô hình tốt nhất được gọi là lựa chọn tập hợp con tốt nhất , phương pháp này cố gắng chọn mô hình tốt nhất từ  tất cả các mô hình có thể được xây dựng bằng tập hợp các yếu tố dự đoán.

Tuy vậy, phương pháp này có hai nhược điểm:

  • Độ phức tạp  tính toán cao. Đối với tập hợp có pbiến dự báo, có thể có 2p mô hình . Ví dụ, với 10 biến dự báo, có 20 mô hình có thể được xem xét.
  • Bởi vì cần xem xét một số lượng lớn các mô hình, phương pháp này có khả năng tìm thấy một mô hình hoạt động tốt trên dữ liệu huấn luyện nhưng không tốt trên dữ liệu trong tương lai. Điều này có thể dẫn đến hiện tượng overfiting.

Một lựa chọn thay thế cho lựa chọn tập hợp con tốt nhất được gọi là lựa chọn theo từng bước.

Có hai loại phương pháp lựa chọn theo từng bước: lựa chọn từng bước tiến (forward stepwise selection) và lựa chọn từng bước lùi (backward stepwise selection).

Lựa chọn từng bước tiến (forward stepwise selection)

Lựa chọn theo từng bước tiến, hoạt động như sau:

1. Gọi M0 biểu thị mô hình rỗng, không chứa biến dự báo. 

2. Đối với k = 0, 2,… p-1:

  • "Fit" với tất cả p - k  mô hình được tăng cường các yếu tố dự đoán trong Mk với một biến dự báo bổ sung.
  • Chọn mô hình tốt nhất trong số p-k mô hình này và gọi nó là Mk+1Xác định "mô hình tốt nhất" là mô hình có R 2 cao nhất hoặc tương đương với RSS thấp nhất.

3. Chọn một mô hình tốt nhất trong số M0 … Mp với việc sử dụng lỗi dự đoán xác thực chéo, Cp, BIC, AIC hoặc R 2 đã điều chỉnh .

Lựa chọn từng bước lùi

Lựa chọn  từng bước lùi, hoạt động như sau:

1. Gọi Mp là mô hình đầy đủ, chứa tất cả các  biến dự báo p . 

2. Đối với k = p, p-1,… 1:

  • Điều chỉnh tất cả k mô hình chứa tất cả ngoại trừ một trong các yếu tố dự báo trong Mk, cho tổng k-1 biến dự báo.
  • Chọn mô hình tốt nhất trong số k mô hình này và gọi nó là  Mk-1 . Xác định "mô hình tốt nhất" là mô hình có R2 cao nhất hoặc tương đương với RSS thấp nhất.

3. Chọn một mô hình tốt nhất trong số M 0 … Mp sử dụng lỗi dự đoán xác thực chéo, Cp, BIC, AIC hoặc R 2  đẫ điều chỉnh.

Tiêu chí để chọn mô hình "tốt nhất"

Bước cuối cùng của cả lựa chọn tiến và lùi liên quan đến việc chọn mô hình có sai số dự đoán thấp nhất, Cp thấp nhất, BIC thấp nhất, AIC thấp nhất hoặc R2 được điều chỉnh cao nhất .

Dưới đây là các công thức được sử dụng để tính toán từng chỉ số này:

Cp: (RSS + 2dσ̂) / n

AIC: (RSS + 2dσ̂ 2 ) / (nσ̂ 2 )

BIC: (RSS + log (n) dσ̂ 2 ) / n

R Điều chỉnh: 1 - ((RSS / (nd-1)) / (TSS / (n-1)))

ở đây:

  • d: Số lượng các yếu tố dự đoán
  • n: Tổng số quan sát
  • σ̂: Ước tính phương sai của sai số/lỗi liên quan đến mỗi phép đo phản hồi trong mô hình hồi quy
  • RSS:  Tổng bình phương còn lại của mô hình hồi quy
  • TSS: Tổng bình phương của mô hình hồi quy

Ưu và nhược điểm của phương pháp lựa chọn từng bước

Lựa chọn theo từng bước mang lại lợi ích sau  :

Nó hiệu quả hơn về mặt tính toán so với lựa chọn tập hợp con tốt nhất. Với các biến dự báo p , lựa chọn tập hợp con tốt nhất phải phù hợp với 2 p mô hình.

Ngược lại, lựa chọn theo từng bước chỉ phải "fit"  cho 1 + p(p + 1)/2 mô hìnhĐối với p = 10 biến dự báo, lựa chọn tập hợp con tốt nhất phải fit hơn  1.000 mô hình, trong khi lựa chọn từng bước chỉ phải phù hợp với 56 mô hình.

Tuy nhiên, lựa chọn theo từng bước có nhược điểm tiềm ẩn sau :

Nó không đảm bảo để tìm ra mô hình tốt nhất có thể trong số tất cả các mô hình tiềm năng 2p .

Ví dụ, giả sử chúng ta có một tập dữ liệu với p = 3 yếu tố dự đoán. Mô hình lựa chọn tập con tốt nhất có thể có thể chứa x1 và mô hình hai dự báo tốt nhất có thể thay thế có thể chứa x1 và x2 .

Trong trường hợp này, lựa chọn từng bước sẽ không chọn được mô hình hai dự báo tốt nhất có thể vì M1 sẽ chứa x1 , do đó M2 cũng phải chứa x1 cùng với một số biến khác.

Có thể tham khảo code minh hoạ về Best Subset Selection và Forward and Backward Stepwise Selection, tại đây:[http://www.science.smith.edu/~jcrouser/SDS293/labs/lab8-py.html]

Khi rãnh rỗi sẽ diễn giả rõ ràng cho đoạn code trên

 



Nhận xét

Bài đăng phổ biến từ blog này

AI chatbot hỗ trợ cho GV lên kế hoạch dạy học STEAM theo quy trinh 5E (GV mầm non và GV Tiểu học)

Mô hình IRT 3PL

Trang blog của Nguyễn Thế Dũng - ĐHSP Huế. Mời đọc.