Bài 4, 5: học qua hồi quy

 

Bài 4: Học với mô hình hồi quy tuyến tính


Hồi quy tuyến tính  là một phương pháp thống kê giúp ta  hiểu về mối quan hệ giữa hai biến, x và y.

Một biến, x , được gọi là biến dự đoán .

Biến còn lại, y , được gọi là biến phản hồi .

Ví dụ: giả sử chúng ta có tập dữ liệu sau với cân nặng và chiều cao của bảy cá nhân:

Hồi quy tuyến tính cơ bản

Đặt  cân nặng  là biến dự đoán và đặt  chiều cao  là biến phản hồi.

Nếu chúng ta vẽ biểu đồ hai biến này bằng biểu đồ phân tán , với cân nặng trên trục x và chiều cao trên trục y:

Biểu đồ hồi quy tuyến tínhGiả sử chúng ta muốn tìm hiểu mối quan hệ giữa cân nặng và chiều cao. Từ biểu đồ phân tán, chúng ta có thể thấy rằng khi cân nặng tăng lên, chiều cao cũng có xu hướng tăng, nhưng để thực sự định lượng  mối quan hệ giữa cân nặng và chiều cao này, chúng ta cần sử dụng hồi quy tuyến tính. 

Sử dụng hồi quy tuyến tính, chúng ta có thể tìm thấy đường thẳng phù hợp nhất với dữ liệu của chúng ta. Đường này được gọi là  đường hồi quy theo phương pháp bình phương nhỏ nhấtCông thức cho đường hồi quy tuyến tính là: ŷ = b 0  + b 1 x  trong đó ŷ là giá trị dự đoán của biến phản hồi, b 0  là ngưỡng y, b 1  là hệ số hồi quy và x là giá trị của biến dự đoán.  Có thể xem cách tính hệ số và vẽ đường hồi quy tuyến tính trong  [https://sites.google.com/view/nguyenthedung, trang 195]. 

Sử dụng phương pháp bình phương tối thiếu, với số liệu ở ví dụ trên thì phương trình đường hồi quy sẽ là: ŷ = 32,7830 + 0,2001x

Với đường hồi quy: ŷ = 32,7830 + 0,2001x

0  = 32,7830 . Điều này có nghĩa là khi biến dự báo cân nặng là 0 pound, thì chiều cao dự đoán là 32,7830 inch. Đôi khi giá trị của b0 cũng rất hữu ích, nhưng trong ví dụ cụ thể này, việc giải thích b0 thực sự không hợp lý  vì một người không thể cân nặng bằng 0 pound.

 = 0,2001. Tức là với việc gia tăng một đơn vị ở x có liên quan đến mức tăng 0,2001 đơn vị ở y . Trong trường hợp này, trọng lượng tăng một pound có liên quan đến sự tăng chiều cao 0,2001 inch.

Với đường hồi quy, chúng ta có thể trả lời các câu hỏi như:

Đối với một người nặng 170 pound, chúng ta mong đợi họ cao bao nhiêu?  Thay 170 vào biến x trong phương trình đường hồi quy, ta được y:

ŷ = 32,7830 + 0,2001 (170) = 66,8 inch

Khi sử dụng phương trình đường hồi quy để trả lời các câu hỏi như thế này, cần đảm bảo rằng chỉ sử dụng các giá trị cho biến dự đoán nằm trong phạm vi của biến dự đoán trong tập dữ liệu ban đầu mà chúng ta đã sử dụng để tạo đường hồi quy. Ví dụ: trọng lượng trong tập dữ liệu của chúng ta dao động từ 140 lbs đến 212 lbs, vì vậy việc trả lời các câu hỏi về chiều cao dự đoán chỉ có ý nghĩa khi cân nặng nằm trong khoảng từ 140 lbs đến 212 lbs. (NỘI SUY).

Hệ số xác định

Một cách để đo mức độ phù hợp của đường hồi quy "khớp" với dữ liệu là sử dụng hệ số xác định , được ký hiệu là R 2 .

Hệ số xác định là tỷ lệ của phương sai trong biến phản hồi có thể được giải thích bằng biến dự báo.

Hệ số xác định có thể nằm trong khoảng từ 0 đến 1. Giá trị 0 chỉ ra rằng biến phản hồi không thể được giải thích bằng biến dự đoán. Giá trị 1 chỉ ra rằng biến phản hồi có thể được giải thích một cách hoàn hảo mà không bị lỗi bởi biến dự đoán.

Một   giữa 0 và 1 cho thấy mức độ quan hệ giữa biến phản hồi với các  biến dự đoán. Ví dụ, R  bằng 0,2 chỉ ra rằng 20% ​​phương sai trong biến phản hồi có thể được giải thích bằng biến dự đoán;  là 0,77 chỉ ra rằng 77% phương sai trong biến phản hồi có thể được giải thích bằng biến dự đoán.

Các giả định của hồi quy tuyến tính

Để kết quả của mô hình hồi quy tuyến tính hợp lệ và đáng tin cậy, chúng ta cần kiểm tra xem bốn giả định:

1. Mối quan hệ tuyến tính:  Tồn tại mối quan hệ tuyến tính giữa biến độc lập, x và biến phụ thuộc y.

2. Tính độc lập:  Các phần dư là độc lập. Đặc biệt, không có mối tương quan giữa các phần dư liên tiếp trong dữ liệu chuỗi thời gian.

3. Độ co giãn đồng nhất:  Các phần dư có phương sai không đổi tại mọi mức của x.

4. Tính chuẩn:  Các phần dư (trị số quan sát trừ cho trị số ước đoán)của mô hình có phân phối chuẩn.

Nếu một hoặc nhiều giả định này bị vi phạm, thì kết quả của hồi quy tuyến tính của chúng ta có thể không đáng tin cậy hoặc thậm chí sai lệch.

Khi vẽ đường thẳng hồi qui, ta thấy các trị số quan sát y3, y4, y5, y6 nằm trên đường thẳng, còn y1 và y2 không nằm trên đường thẳng này và sự liên hệ giữa xi và yi không còn là 100% mà chỉ còn 97% vì có sự sai lệch tại y1 và y2. 

Sự sai lệch này trong thống kê gọi là phần dư (residual) hoặc errors. 

Gọi y1, y2, y3, y4, y5, y6 là trị số quan sát và y’1, y’2, y’3, y’4, y’5, y’6 là trị số ước đoán nằm trên đường hồi qui.

e1, e2, e3, e4, e5, e6 là phần dư. Như vậy e1= y1 –y’1; e2 = y2 –y’2; e3 = y3 –y’3; e4 = y4 –y’4; e5 = y5 – y’5; e6 = y6 –y’6.

Khi đó phương trình hồi qui tuyến tính được viết dưới dạng tổng quát như sau: 

y’= βxi + ai+ ei

Như vậy nếu phần dư ei càng nhỏ sự liên hệ giữa x,y càng lớn và ngược lại. 

Phần liên hệ còn đượi gọi là phần hồi qui. Mô hình hồi qui tuyến tích được mô tả như sau:

Dữ liệu= Hồi qui (Regression) + Phần dư (Residual)

Nguyên tắc chọn đường thẳng nào đi gần tất cả các điểm trên đồ thị phân tán, có nghĩa làm sao để tổng các phần dư ei nhỏ nhất:  

Đây là phương trình bậc 2 theo x. Trong toán học, muốn tìm trị cực tiểu của 1 phương trình bậc 2, người ta lấy đạo hàm và cho đạo hàm triệt tiêu (bằng 0) sẽ tìm được trị cực tiểu của x. 
Giải phương trình này, ta sẽ tính được 2 thông số b0 và bvà từ 2 thông số này ta sẽ vẽ được đường thẳng hồi qui. Phương pháp này trong toán học gọi là phương pháp bình phương nhỏ nhất (least square method). 



Nhận xét

Bài đăng phổ biến từ blog này

Mô hình IRT 3PL

AI chatbot hỗ trợ cho GV lên kế hoạch dạy học STEAM theo quy trinh 5E (GV mầm non và GV Tiểu học)

Trang blog của Nguyễn Thế Dũng - ĐHSP Huế. Mời đọc.