Công thức tính R-bình phương

Công thức của R^{2} được tính như sau:

R^{2} = 1 - \frac{sum - squared - regression (SSR))}{total - sum - of - squares (SST))}

hay

R^{2} = 1 - \frac{\sum (y_{i}-\hat{y})^{2}}{\sum(y_{i}-\bar{y})^{2}}

trong đó:

  • Sum squared regression (SSR) là phần dư bình phương hồi quy.
  • Total sum of squares (SST) là phần dư bình phương so với giá trị trung bình.

Liệu R^{2} cao có nghĩa là mô hình tốt?

KHÔNG!

Trong khoa học dữ liệu, nếu chúng ta chỉ nhìn vào giá trị R^{2} cao để cho rằng mô hình là tốt thì có thể chúng ta đang phạm sai lầm.

Hình 1

Ở hình 1, ta có một mô hình dữ liệu với đường fit line mô tả mối quan hệ giữa tốc độ electron trong thiết bị bán dẫn (electron mobility) với độ tập trung electron (electron density). Đường fit line cho thấy mô hình rất tốt cho bộ dữ liệu với giá trị R^{2} bằng 98.5%. Tuy nhiên, nếu nhìn kĩ hơn vào đường fit line ta có thể thấy có những đoạn bị quá khớp (như đoạn giữa) và có đoạn ít khớp (như đoạn ở dưới).

Hình 2

Bây giờ nhìn sang hình 2, là biểu đồ phần dư (residuals plot). Ta thấy rằng các điểm dữ liệu không phân bố ngẫu nhiên quanh giá trị 0 mà có pattern lên xuống. Đây là một tín hiệu cho chúng ta biết rằng mô hình dữ liệu là không tốt, cho dù giá trị R^{2} là rất cao. Đây là lý do tại sao bạn phải luôn kiểm tra biểu đồ phần dư.

Bài viết bạn có thể quan tâm

About Author

Chia sẻ bài viết

Leave a Comment

Your email address will not be published. Required fields are marked *