Bài 20, 21, 22, 23: Tree-Based Methods
Bài 20: Cây phân lớp và cây hồi quy (Classification and Regression Trees)
Khi mối quan hệ giữa một tập hợp các biến dự báo và một biến phản hồi là tuyến tính, các phương pháp như hồi quy nhiều tuyến tính có thể tạo ra các mô hình dự đoán chính xác.
Tuy nhiên, khi mối quan hệ giữa một tập hợp các yếu tố dự đoán và một phản hồi là rất phi tuyến tính và phức tạp thì các phương pháp phi tuyến tính có thể hoạt động tốt hơn.
Một ví dụ như vậy của phương pháp phi tuyến tính là cây phân loại và hồi quy (classification and regression trees - CART).
Như tên của nó, mô hình CART sử dụng một tập hợp các biến dự báo để xây dựng cây quyết định dự đoán giá trị của một biến phản hồi.
Ví dụ: giả sử chúng ta có một tập dữ liệu chứa các biến dự đoán Số năm kinh nghiệm và số lần "home run" cùng với biến phản hồi Mức lương hàng năm cho các cầu thủ bóng chày chuyên nghiệp.
Đây là cây hồi quy đối với tập dữ liệu này:
Diễn giải cây như sau:
- Người chơi có ít hơn 4,5 năm chơi, có mức lương dự đoán là $ 225,8k.
- Người chơi có hơn hoặc bằng 4,5 năm chơi và ít hơn 16,5 lần "home run" trung bình có mức lương dự đoán là 577,6 nghìn đô la.
- Người chơi có hơn hoặc bằng 4,5 năm chơi và lớn hơn hoặc bằng 16,5 lần "home run" trung bình có mức lương dự đoán là 975,6 nghìn đô la.
Kết quả của mô hình này sẽ có ý nghĩa trực quan: Những người chơi có nhiều năm kinh nghiệm hơn và trung bình nhiều lần "home run" có xu hướng kiếm được mức lương cao hơn.
Sau đó, chúng ta có thể sử dụng mô hình này để dự đoán mức lương của một cầu thủ mới.
Ví dụ: giả sử một cầu thủ nhất định đã chơi 8 năm và trung bình 10 lần "home run" mỗi năm. Theo mô hình của chúng ta, chúng ta dự đoán rằng cầu thủ này có mức lương hàng năm là 577,6 nghìn đô la.
Một vài lưu ý về cây:
- Biến dự báo đầu tiên ở trên ngọn cây là quan trọng nhất, tức là có ảnh hưởng lớn nhất đến việc dự đoán giá trị của biến phản hồi. Trong trường hợp này, số năm chơi có thể dự đoán mức lương tốt hơn so với số lần "home run" trung bình .
- Các vùng ở dưới cùng của cây được gọi là các nút đầu cuối . Cây cụ thể này có ba nút đầu cuối.
Các bước xây dựng mô hình CART
Chúng ta có thể sử dụng các bước sau để xây dựng mô hình CART cho một tập dữ liệu nhất định:
Bước 1: Sử dụng phép tách nhị phân đệ quy để phát triển một cây lớn trên dữ liệu huấn luyện.
Đầu tiên, chúng ta sử dụng một thuật toán tham lam được gọi là tách nhị phân đệ quy để phát triển một cây hồi quy bằng cách sử dụng phương pháp sau:
- Xem xét tất cả các biến dự báo X 1 , X 2 ,…, X p và tất cả các giá trị có thể có của các điểm cắt cho từng yếu tố dự báo, sau đó chọn công cụ dự báo và điểm cắt sao cho cây kết quả có RSS thấp nhất (residual standard error) .
- Đối với cây phân loại, chúng ta chọn công cụ dự đoán và điểm cắt sao cho cây kết quả có tỷ lệ phân loại sai thấp nhất.
- Lặp lại quá trình này, chỉ dừng lại khi mỗi nút đầu cuối có ít hơn một số quan sát tối thiểu.
Thuật toán được gọi là tham lam vì ở mỗi bước của quá trình xây dựng cây, nó xác định phần tách tốt nhất để thực hiện chỉ dựa trên bước đó, thay vì nhìn về phía trước và chọn phần tách sẽ dẫn đến cây tổng thể tốt hơn trong một số bước trong tương lai.
Bước 2: Áp dụng phương pháp cắt tỉa complexity hơn về chi phí cho cây lớn để thu được chuỗi các cây tốt nhất, như một hàm của α.
Khi chúng ta đã phát triển cây lớn, sau đó chúng ta cần phải cắt tỉa cây bằng cách sử dụng một phương pháp được gọi là cắt tỉa complexity về chi phí, hoạt động như sau:
- Đối với mỗi cây có thể có nút đầu cuối T, hãy tìm cây tối thiểu RSS + α | T |.
- Lưu ý rằng khi chúng ta tăng giá trị của α, cây có nhiều nút đầu cuối hơn sẽ bị phạt. Điều này đảm bảo rằng cây không trở nên quá phức tạp.
Quá trình này dẫn đến một chuỗi các cây tốt nhất cho mỗi giá trị của α.
Bước 3: Sử dụng xác nhận chéo k-lần để chọn α.
Khi chúng ta đã tìm thấy cây tốt nhất cho mỗi giá trị của α, chúng ta có thể áp dụng xác thực chéo k-lần để chọn giá trị của α mà giảm thiểu sai số thử nghiệm.
Bước 4: Chọn mô hình cuối cùng
Cuối cùng, chúng ta chọn mô hình cuối cùng là mô hình tương ứng với giá trị đã chọn của α.
Ưu và nhược điểm của các mô hình CART
Các mô hình CART có những ưu điểm sau :
- Dễ giải thích và minh hoạ.
- Có thể được áp dụng cho cả bài toán hồi quy và phân lớp.
Tuy nhiên, các mô hình CART đi kèm với những điều khó khăn sau:
- Chúng có xu hướng không có nhiều dự đoán chính xác như các thuật toán học máy phi tuyến tính khác. Tuy nhiên, bằng cách tổng hợp nhiều cây quyết định với các phương pháp như đóng gói, tăng cường và rừng ngẫu nhiên, độ chính xác dự đoán của chúng có thể được cải thiện.
Nhận xét
Đăng nhận xét