Bài 20, 21, 22, 23: Tree-Based Methods

 

Bài 20: Cây phân lớp và cây hồi quy (Classification and Regression Trees)


Khi mối quan hệ giữa một tập hợp các biến dự báo và một biến phản hồi là tuyến tính, các phương pháp như hồi quy nhiều tuyến tính có thể tạo ra các mô hình dự đoán chính xác.

Tuy nhiên, khi mối quan hệ giữa một tập hợp các yếu tố dự đoán và một phản hồi là rất phi tuyến tính và phức tạp thì các phương pháp phi tuyến tính có thể hoạt động tốt hơn.

Một ví dụ như vậy của phương pháp phi tuyến tính là cây phân loại và hồi quy (classification and regression trees CART)

Như tên của nó, mô hình CART sử dụng một tập hợp các biến dự báo để xây dựng  cây quyết định dự đoán giá trị của một biến phản hồi.

Ví dụ: giả sử chúng ta có một tập dữ liệu chứa các biến dự đoán Số  năm kinh nghiệm và  số lần "home run" cùng với biến phản hồi  Mức lương hàng năm cho các cầu thủ bóng chày chuyên nghiệp.

Đây là cây hồi quy đối với tập dữ liệu này:

Ví dụ về cây hồi quy

Diễn giải cây như sau:

  • Người chơi có ít hơn 4,5 năm chơi, có mức lương dự đoán là $ 225,8k.
  • Người chơi có hơn hoặc bằng 4,5 năm chơi và ít hơn 16,5 lần "home run" trung bình có mức lương dự đoán là 577,6 nghìn đô la.
  • Người chơi có hơn hoặc bằng 4,5 năm chơi và lớn hơn hoặc bằng 16,5 lần "home run" trung bình có mức lương dự đoán là 975,6 nghìn đô la.

Kết quả của mô hình này sẽ có ý nghĩa trực quan: Những người chơi có nhiều năm kinh nghiệm hơn và trung bình nhiều lần "home run" có xu hướng kiếm được mức lương cao hơn.

Sau đó, chúng ta có thể sử dụng mô hình này để dự đoán mức lương của một cầu thủ mới.

Ví dụ: giả sử một cầu thủ nhất định đã chơi 8 năm và trung bình 10 lần "home run" mỗi năm. Theo mô hình của chúng ta, chúng ta dự đoán rằng cầu thủ này có mức lương hàng năm là 577,6 nghìn đô la.

Mô hình CART

Một vài lưu ý về cây:

  • Biến dự báo đầu tiên ở trên ngọn cây là quan trọng nhất, tức là có ảnh hưởng lớn nhất đến việc dự đoán giá trị của biến phản hồi. Trong trường hợp này, số  năm chơi có thể dự đoán mức lương tốt hơn so với  số lần "home run" trung bình .
  • Các vùng ở dưới cùng của cây được gọi là  các nút đầu cuối . Cây cụ thể này có ba nút đầu cuối.

Các bước xây dựng mô hình CART

Chúng ta có thể sử dụng các bước sau để xây dựng mô hình CART cho một tập dữ liệu nhất định:

Bước 1: Sử dụng phép tách nhị phân đệ quy để phát triển một cây lớn trên dữ liệu huấn luyện.

Đầu tiên, chúng ta sử dụng một  thuật toán tham lam được gọi là tách nhị phân đệ quy để phát triển một cây hồi quy bằng cách sử dụng phương pháp sau:

  • Xem xét tất cả các biến dự báo X 1 , X 2 ,…, X p và tất cả các giá trị có thể có của các điểm cắt cho từng yếu tố dự báo, sau đó chọn công cụ dự báo và điểm cắt sao cho cây kết quả có RSS thấp nhất (residual standard error) .
    • Đối với cây phân loại, chúng ta chọn công cụ dự đoán và điểm cắt sao cho cây kết quả có tỷ lệ phân loại sai thấp nhất.
  • Lặp lại quá trình này, chỉ dừng lại khi mỗi nút đầu cuối có ít hơn một số quan sát tối thiểu.

Thuật toán được gọi là tham lam vì ở mỗi bước của quá trình xây dựng cây, nó xác định phần tách tốt nhất để thực hiện chỉ dựa trên bước đó, thay vì nhìn về phía trước và chọn phần tách sẽ dẫn đến cây tổng thể tốt hơn trong một số bước trong tương lai.

Bước 2: Áp dụng phương pháp cắt tỉa complexity hơn về chi phí cho cây lớn để thu được chuỗi các cây tốt nhất, như một hàm của α.

Khi chúng ta đã phát triển cây lớn, sau đó chúng ta cần phải  cắt tỉa cây bằng cách sử dụng một phương pháp được gọi là cắt tỉa complexity về chi phí, hoạt động như sau:

  • Đối với mỗi cây có thể có nút đầu cuối T, hãy tìm cây tối thiểu RSS + α | T |.
  • Lưu ý rằng khi chúng ta tăng giá trị của α, cây có nhiều nút đầu cuối hơn sẽ bị phạt. Điều này đảm bảo rằng cây không trở nên quá phức tạp.

Quá trình này dẫn đến một chuỗi các cây tốt nhất cho mỗi giá trị của α.

Bước 3: Sử dụng xác nhận chéo k-lần để chọn α. 

Khi chúng ta đã tìm thấy cây tốt nhất cho mỗi giá trị của α, chúng ta có thể áp dụng xác thực chéo k-lần để chọn giá trị của α mà giảm thiểu sai số thử nghiệm.

Bước 4: Chọn mô hình cuối cùng

Cuối cùng, chúng ta chọn mô hình cuối cùng là mô hình tương ứng với giá trị đã chọn của α.

Ưu và nhược điểm của các mô hình CART

Các mô hình CART có những ưu điểm sau  :

  • Dễ giải thích và minh hoạ.
  • Có thể được áp dụng cho cả bài toán hồi quy và phân lớp.

Tuy nhiên, các mô hình CART đi kèm với những điều khó khăn sau:

  • Chúng có xu hướng không có nhiều dự đoán chính xác như các thuật toán học máy phi tuyến tính khác. Tuy nhiên, bằng cách tổng hợp nhiều cây quyết định với các phương pháp như đóng gói, tăng cường và rừng ngẫu nhiên, độ chính xác dự đoán của chúng có thể được cải thiện.


https://machinelearningjourney.com/index.php/2020/03/13/decision-trees/
https://towardsdatascience.com/understanding-decision-trees-for-classification-python-9663d683c952
https://python-course.eu/machine-learning/regression-trees-in-python.php

Nhận xét

Bài đăng phổ biến từ blog này

Mô hình IRT 3PL

AI chatbot hỗ trợ cho GV lên kế hoạch dạy học STEAM theo quy trinh 5E (GV mầm non và GV Tiểu học)

Trang blog của Nguyễn Thế Dũng - ĐHSP Huế. Mời đọc.