Bài 23: Boost trong học máy


Hầu hết các thuật toán học máy có giám sát dựa trên việc sử dụng mô hình dự đoán đơn như hồi quy tuyến tính , hồi quy logistic , hồi quy ridge , v.v. 

Tuy nhiên, các phương pháp như đóng bao và rừng ngẫu nhiên xây dựng nhiều mô hình khác nhau dựa trên các mẫu khởi động lặp lại của tập dữ liệu gốc. Dự đoán về dữ liệu mới được thực hiện bằng cách lấy giá trị trung bình của các dự đoán được thực hiện bởi các mô hình riêng lẻ.

Các phương pháp này có xu hướng cải thiện độ chính xác của dự đoán so với các phương pháp chỉ sử dụng một mô hình dự đoán đơn  vì chúng sử dụng quy trình sau:

Một phương pháp khác có xu hướng cung cấp cải thiện hơn nữa về độ chính xác dự đoán được gọi là boost.

Boost là gì?

Boost là một phương pháp có thể được sử dụng với bất kỳ loại mô hình nào, nhưng nó thường được sử dụng với cây quyết định.

Ý tưởng của boost khá đơn giản:

1. Đầu tiên, hãy xây dựng một mô hình "yếu".

  • Mô hình "yếu" là mô hình có tỷ lệ lỗi chỉ tốt hơn một chút so với phỏng đoán ngẫu nhiên.
  • Trong thực tế, đây thường là một cây quyết định chỉ có một hoặc hai phần tách.

2. Tiếp theo, xây dựng một mô hình "yếu" khác dựa trên những phần còn lại của mô hình trước đó.

  • Trên thực tế, chúng ta sử dụng các phần còn lại từ mô hình trước đó (tức là các lỗi trong dự đoán của chúng ta) để phù hợp với một mô hình mới cải thiện một chút về tỷ lệ lỗi tổng thể.

3. Tiếp tục quá trình này cho đến khi xác thực chéo k-lần cho chúng ta biết nên dừng lại.

  • Trên thực tế, chúng ta sử dụng xác thực chéo k-lần để xác định khi nào chúng ta nên ngừng phát triển mô hình được thúc đẩy.

Bằng cách sử dụng phương pháp này, chúng ta có thể bắt đầu với một mô hình "yếu" và tiếp tục “thúc đẩy” hiệu suất của nó bằng cách liên tục xây dựng các cây mới để cải thiện hiệu suất của cây trước đó cho đến khi chúng ta kết thúc với một mô hình cuối cùng có độ chính xác dự đoán cao.

Thúc đẩy học máy

Boost hoạt động?

Boost có thể tạo ra một số mô hình mạnh mẽ nhất trong tất cả các mô hình máy học.Trong nhiều ngành công nghiệp, các mô hình boost được sử dụng làm mô hình chuẩn trong sản xuất vì chúng có xu hướng vượt trội hơn tất cả các mô hình khác.

Lý do khiến các mô hình sử dụng phương pháp boost  hoạt động tốt: 

1. Đầu tiên, các mô hình boost xây dựng một cây quyết định yếu có độ chính xác dự đoán thấp. Cây quyết định này được cho là có phương sai thấp và độ chệch cao.

2.  Khi các mô hình boost trải qua quá trình cải tiến tuần tự các cây quyết định trước đó, mô hình tổng thể có thể từ từ giảm độ chệch ở mỗi bước mà không làm tăng phương sai nhiều.

3. Mô hình được fit cuối cùng có xu hướng có độ chệch đủ thấp  phương sai thấp, dẫn đến mô hình có thể tạo ra tỷ lệ lỗi thử nghiệm thấp trên dữ liệu mới.

Ưu và nhược điểm của boost

Lợi ích rõ ràng của boost là nó có thể tạo ra các mô hình có độ chính xác dự đoán cao so với hầu hết các loại mô hình khác.

Một nhược điểm tiềm ẩn là một mô hình được fit với phương pháp boost rất khó giải thích. Mặc dù nó có thể mang lại khả năng to lớn trong việc dự đoán các giá trị phản hồi của dữ liệu mới, nhưng rất khó để giải thích quy trình chính xác mà nó sử dụng để thưc hiện.

Boost trong thực hành

Trên thực tế, có nhiều loại thuật toán được sử dụng để thúc đẩy, bao gồm:

  • XGBoost (https://xgboost.readthedocs.io/en/latest/)
  • AdaBoost (https://en.wikipedia.org/wiki/AdaBoost)
  • CatBoost (https://catboost.ai/)
  • LightGBM (https://lightgbm.readthedocs.io/en/latest/)

Tùy thuộc vào kích thước của tập dữ liệu và khả năng xử lý của máy, một trong những phương pháp này có thể phù hợp hơn phương pháp kia. 

Nhận xét

Bài đăng phổ biến từ blog này

AI chatbot hỗ trợ cho GV lên kế hoạch dạy học STEAM theo quy trinh 5E (GV mầm non và GV Tiểu học)

Mô hình IRT 3PL

Trang blog của Nguyễn Thế Dũng - ĐHSP Huế. Mời đọc.