Bài 4, 5: học qua hồi quy
Bài 4: Học với mô hình hồi quy tuyến tính
Một biến, x , được gọi là biến dự đoán .
Biến còn lại, y , được gọi là biến phản hồi .
Ví dụ: giả sử chúng ta có tập dữ liệu sau với cân nặng và chiều cao của bảy cá nhân:
Đặt cân nặng là biến dự đoán và đặt chiều cao là biến phản hồi.
Giả sử chúng ta muốn tìm hiểu mối quan hệ giữa cân nặng và chiều cao. Từ biểu đồ phân tán, chúng ta có thể thấy rằng khi cân nặng tăng lên, chiều cao cũng có xu hướng tăng, nhưng để thực sự định lượng mối quan hệ giữa cân nặng và chiều cao này, chúng ta cần sử dụng hồi quy tuyến tính.
Sử dụng hồi quy tuyến tính, chúng ta có thể tìm thấy đường thẳng phù hợp nhất với dữ liệu của chúng ta. Đường này được gọi là đường hồi quy theo phương pháp bình phương nhỏ nhất. Công thức cho đường hồi quy tuyến tính là: ŷ = b 0 + b 1 x trong đó ŷ là giá trị dự đoán của biến phản hồi, b 0 là ngưỡng y, b 1 là hệ số hồi quy và x là giá trị của biến dự đoán. Có thể xem cách tính hệ số và vẽ đường hồi quy tuyến tính trong [https://sites.google.com/view/nguyenthedung, trang 195].
Sử dụng phương pháp bình phương tối thiếu, với số liệu ở ví dụ trên thì phương trình đường hồi quy sẽ là: ŷ = 32,7830 + 0,2001x
Với đường hồi quy: ŷ = 32,7830 + 0,2001x
b 0 = 32,7830 . Điều này có nghĩa là khi biến dự báo cân nặng là 0 pound, thì chiều cao dự đoán là 32,7830 inch. Đôi khi giá trị của b0 cũng rất hữu ích, nhưng trong ví dụ cụ thể này, việc giải thích b0 thực sự không hợp lý vì một người không thể cân nặng bằng 0 pound.
b 1 = 0,2001. Tức là với việc gia tăng một đơn vị ở x có liên quan đến mức tăng 0,2001 đơn vị ở y . Trong trường hợp này, trọng lượng tăng một pound có liên quan đến sự tăng chiều cao 0,2001 inch.
Với đường hồi quy, chúng ta có thể trả lời các câu hỏi như:
Đối với một người nặng 170 pound, chúng ta mong đợi họ cao bao nhiêu? Thay 170 vào biến x trong phương trình đường hồi quy, ta được y:
ŷ = 32,7830 + 0,2001 (170) = 66,8 inch
Khi sử dụng phương trình đường hồi quy để trả lời các câu hỏi như thế này, cần đảm bảo rằng chỉ sử dụng các giá trị cho biến dự đoán nằm trong phạm vi của biến dự đoán trong tập dữ liệu ban đầu mà chúng ta đã sử dụng để tạo đường hồi quy. Ví dụ: trọng lượng trong tập dữ liệu của chúng ta dao động từ 140 lbs đến 212 lbs, vì vậy việc trả lời các câu hỏi về chiều cao dự đoán chỉ có ý nghĩa khi cân nặng nằm trong khoảng từ 140 lbs đến 212 lbs. (NỘI SUY).
Hệ số xác định
Một cách để đo mức độ phù hợp của đường hồi quy "khớp" với dữ liệu là sử dụng hệ số xác định , được ký hiệu là R 2 .
Hệ số xác định là tỷ lệ của phương sai trong biến phản hồi có thể được giải thích bằng biến dự báo.
Hệ số xác định có thể nằm trong khoảng từ 0 đến 1. Giá trị 0 chỉ ra rằng biến phản hồi không thể được giải thích bằng biến dự đoán. Giá trị 1 chỉ ra rằng biến phản hồi có thể được giải thích một cách hoàn hảo mà không bị lỗi bởi biến dự đoán.
Một R 2 giữa 0 và 1 cho thấy mức độ quan hệ giữa biến phản hồi với các biến dự đoán. Ví dụ, R 2 bằng 0,2 chỉ ra rằng 20% phương sai trong biến phản hồi có thể được giải thích bằng biến dự đoán; R 2 là 0,77 chỉ ra rằng 77% phương sai trong biến phản hồi có thể được giải thích bằng biến dự đoán.
Các giả định của hồi quy tuyến tính
Để kết quả của mô hình hồi quy tuyến tính hợp lệ và đáng tin cậy, chúng ta cần kiểm tra xem bốn giả định:
1. Mối quan hệ tuyến tính: Tồn tại mối quan hệ tuyến tính giữa biến độc lập, x và biến phụ thuộc y.
2. Tính độc lập: Các phần dư là độc lập. Đặc biệt, không có mối tương quan giữa các phần dư liên tiếp trong dữ liệu chuỗi thời gian.
3. Độ co giãn đồng nhất: Các phần dư có phương sai không đổi tại mọi mức của x.
4. Tính chuẩn: Các phần dư (trị số quan sát trừ cho trị số ước đoán)của mô hình có phân phối chuẩn.
Nếu một hoặc nhiều giả định này bị vi phạm, thì kết quả của hồi quy tuyến tính của chúng ta có thể không đáng tin cậy hoặc thậm chí sai lệch.
Khi vẽ đường thẳng hồi qui, ta thấy các trị số quan sát y3, y4, y5, y6 nằm trên đường thẳng, còn y1 và y2 không nằm trên đường thẳng này và sự liên hệ giữa xi và yi không còn là 100% mà chỉ còn 97% vì có sự sai lệch tại y1 và y2.
Sự sai lệch này trong thống kê gọi là phần dư (residual) hoặc errors.
Gọi y1, y2, y3, y4, y5, y6 là trị số quan sát và y’1, y’2, y’3, y’4, y’5, y’6 là trị số ước đoán nằm trên đường hồi qui.
e1, e2, e3, e4, e5, e6 là phần dư. Như vậy e1= y1 –y’1; e2 = y2 –y’2; e3 = y3 –y’3; e4 = y4 –y’4; e5 = y5 – y’5; e6 = y6 –y’6.
Khi đó phương trình hồi qui tuyến tính được viết dưới dạng tổng quát như sau:
y’= βxi + ai+ ei
Như vậy nếu phần dư ei càng nhỏ sự liên hệ giữa x,y càng lớn và ngược lại.
Phần liên hệ còn đượi gọi là phần hồi qui. Mô hình hồi qui tuyến tích được mô tả như sau:
Dữ liệu= Hồi qui (Regression) + Phần dư (Residual)
Nguyên tắc chọn đường thẳng nào đi gần tất cả các điểm trên đồ thị phân tán, có nghĩa làm sao để tổng các phần dư ei nhỏ nhất:
Nhận xét
Đăng nhận xét