Giải thích ý nghĩa của t-test

Xin chào các bạn,

Đây là bài dịch tiếng Việt của mình về một bài viết rất hay giải thích ý nghĩa của phương pháp t-test (hay phương pháp kiểm định t – trong bài viết mình chỉ gọi là t-test cho ngắn gọn) của tác giả Patrick Runkel. Bài gốc bằng tiếng Anh có tên đầy đủ là “What Is a t-test? And Why Is It Like Telling a Kid to Clean Up that Mess in the Kitchen?” và các bạn có thể đọc bài gốc tại đây.

Phương pháp t-test là một trong những thủ tục được sử dụng phổ biến nhất trong khoa học thống kê.

Nhưng thậm chí những người sử dụng t-test một cách thường xuyên cũng không biết chính xác phương pháp này hoạt động như thế nào bởi tất cả các dữ liệu đều được xử lý sau tấm màn che của các phần mềm thống kê, ví dụ như Minitab.

Và thật là đáng để chúng ta bỏ một chút thời gian để xem phương pháp t-test hoạt động như thế nào ở đằng sau tấm màn che đó.

Bởi vì nếu bạn hiểu được cách phương pháp t-test hoạt động, bạn có thể hiểu ở một mức độ sâu hơn về dữ liệu của bạn dựa trên kết quả mà phương pháp t-test mang lại. Và bạn cũng hiểu sâu hơn tại sao kết quả nghiên cứu của bạn đạt được (hoặc không đạt được) “ý nghĩa thống kê” (statistical significant).

Thực tế là nếu bạn có một đứa con đang trong tuổi teen thích ăn chơi nhiều hơn là thích làm việc nhà thì có lẽ là bạn đã có một trải nghiệm giống như những nguyên lý cơ bản đằng sau phương pháp t-test.

Giải phẫu phương pháp t-test

Phương pháp t-test được dùng một cách phổ biến để xác định xem liệu giá trị trung bình của một quần thể (the mean of a population) có khác biệt với một giá trị nào đó (gọi là giá trị trung bình giả thuyết – a hypothesized mean) hoặc với giá trị trung bình của một quần thể khác.

Ví dụ, phương pháp 1-sample t-test (hay phương pháp kiểm định t cho một mẫu) được dùng để kiểm định xem liệu thời gian chờ trung bình của các bệnh nhân trong một phòng khám y khoa có lâu hơn so với thời gian mong muốn là 15 phút hay không, dựa trên dữ liệu từ một nhóm ngẫu nhiên các bệnh nhân.

Để xác định xem liệu sự khác biệt (giữa thời gian chờ thực tế và thời gian mong muốn) có ý nghĩa thống kê hay không, phương pháp t-test sẽ tính toán một giá trị gọi là t-value (giá trị p-value nổi tiếng cũng được lấy trực tiếp từ t-value). Giá trị này được tính như sau:

t = \frac{\bar{x} - \mu _{0}}{\frac{s}{\sqrt{n}}}

Công thức toán học này trông có vẻ bí hiểm nhưng thực ra bạn hoàn toàn có thể làm chủ được nó nếu bạn hiểu được hai động lực quan trọng đằng sau nó : phần tử số (ở phía trên) và phần mẫu số (ở phía dưới).

Phần tử số là Tín Hiệu

Phần tử số trong công thức 1-sample t-test đo lường độ mạnh của tín hiệu (signal): sự khác biệt giữa giá trị trung bình của mẫu dữ liệu của bạn (\bar{x}) và giá trị trung bình giả thuyết của quần thể (\mu_{0}).

Trở lại với ví dụ về thời gian chờ của các bệnh nhân, giá trị trung bình giả thuyết là 15 phút.

Nếu các bệnh nhân trong mẫu dữ liệu ngẫu nhiên của bạn có thời gian chờ trung bình là 15.1 phút, tín hiệu bằng 15.1 – 15 = 0.1 phút. Giá trị khác biệt này tương đối nhỏ, do vậy tín hiệu ở phần tử số thì yếu.

Tuy nhiên, nếu thời gian chờ trung bình của bệnh nhân là 68 phút, sự khác biệt sẽ lớn hơn và bằng 68-15=53 phút. Do vậy, tín hiệu sẽ mạnh hơn.

Phần mẫu số là Nhiễu

Phần mẫu số đo lường mức độ dao động hay “nhiễu” (noise) trong mẫu dữ liệu của bạn.

Kí hiệu \dpi{120} \LARGE s là độ lệch chuẩn (standard deviation)  – mô tả mức dao động trong dữ liệu của bạn. Nếu bạn có một bệnh nhân chờ 50 phút, một bệnh nhân khác chờ 12 phút, một người khác nữa chờ 0.5 phút, một người khác nữa chờ 175 phút,… thì có thể nói rằng dữ liệu của bạn có rất nhiều dao động. Điều này có nghĩa rằng nếu giá trị s càng lớn, mức độ nhiễu trong dữ liệu của bạn càng lớn. Mặc khác, nếu bạn có một bệnh nhân chờ 14 phút, một người khác chờ 16 phút, một bệnh nhân khác chờ 12 phút, thì có thể nói rằng dữ liệu của bạn có ít dao động. Điều này có nghĩa rằng nếu giá trị s càng nhỏ thì dữ liệu của bạn sẽ ít “nhiễu” hơn.

Còn kí hiệu \sqrt{n} ở phía dưới s có ý nghĩa là gì? Đó là căn bậc hai kích thước mẫu dữ liệu của bạn (ví dụ nếu mẫu của bạn có 30 người thì n = 30). Nếu mọi thứ đều bằng nhau thì dữ liệu của bạn sẽ bị nhiễu nhiều hơn nếu kích thước mẫu dữ liệu của bạn nhỏ và sẽ ít nhiễu hơn nếu kích thước mẫu dữ liệu của bạn lớn.

Giá trị t-value là tỉ lệ của Tín Hiệu so với Nhiễu

Công thức phía trên cho thấy t-value đơn giản là so sánh độ mạnh của tín hiệu với độ nhiễu trong mẫu dữ liệu của bạn.

Nếu tín hiệu tương đối yếu so với mức độ nhiễu thì t-value sẽ nhỏ hơn. Do đó mức độ khác biệt sẽ ít có khả năng có ý nghĩa thống kê.

Ở biểu đồ bên phải của hình phía trên, sự khác biệt giữa giá trị trung bình của dữ liệu \bar{x} và giá trị trung bình giả thuyết \mu_{0} là 16 phút. Nhưng bởi vì các dữ liệu trong mẫu bị trải rộng ra nên sự khác biệt này không có ý nghĩa thống kê. Tại sao lại như vậy? Bởi vì t – value — tỉ lệ giữa tín hiệu và nhiễu — thì tương đối bé do mẫu số lớn.

Tuy nhiên, nếu tín hiệu thì mạnh tương đối so với nhiễu, kích thước (tuyệt đối) của t-value sẽ lớn hơn. Do đó, sự khác biệt giữa \bar{x}\mu_{0} sẽ có nhiều khả năng có ý nghĩa thống kê hơn.

Ở hình trên, sự khác biệt giữa \bar{x}  và \mu_{0} cũng là 16 phút. Kích thước dữ liệu cũng bằng nhau. Nhưng lần này, các điểm dữ liệu co cụm lại gần nhau hơn. Vì dữ liệu ít dao động hơn, nên sự khác biệt của 16 phút giờ đây lại mang ý nghĩa thống kê.

Thông điệp về ý nghĩa thống kê

Phương pháp t-test là như thế nào với việc bảo nhóc teenager nhà bạn đi lau bếp?

Nếu như nhóc teenager đang nghe nhạc, đang chơi video game, gửi tin nhắn cho bạn bè, hoặc bị sao nhãng bởi các nguồn “nhiễu” khác, bạn cần phải nói to hơn và mạnh hơn để có thể đạt được mức “ý nghĩa”. Hoặc nếu bạn có thể xóa bỏ được các nguồn nhiễu thì bạn hoàn toàn không cần phải ăn to nói lớn với nhóc teenager nhà bạn.

Một cách tương tự, nếu như kết quả t-test của bạn không đạt được ý nghĩa thống kê thì có thể là do một trong các nguyên nhân sau đây:

  • Độ khác biệt (tín hiệu) là chưa đủ lớn. Bạn không thể làm gì được hơn nếu điều này xảy ra, giả sử rằng nghiên cứu của bạn sử dụng đúng phương pháp và mẫu dữ liệu mà bạn thu thập mang tính đại diện cho quần thể.
  • Độ dao động dữ liệu (nhiễu) quá lớn. Đây là lý do tại sao việc remove các điểm bất thường (outlier) trong dữ liệu của bạn là điều rất quan trọng. Bạn có thể dùng control chart để phát hiện và loại trừ các điểm outlier ra khỏi dữ liệu trước khi thực hiện t-test.
  • Mẫu dữ liệu quá nhỏ. Mức độ dao động sẽ nhỏ đi nếu kích thước dữ liệu lớn. Điều này có nghĩa là nếu có cùng một độ khác biệt và cùng một giá trị dao động, nếu kích thước dữ liệu càng lớn thì càng có khả năng đạt được ý nghĩa thống kê – như biểu đồ bên dưới.

( Điều này giải thích tại sao một mẫu dữ liệu có kích thước cực lớn có thể tạo ra được ý nghĩa thống kê mặc dù độ khác biệt rất nhỏ và hoàn toàn không có ảnh hưởng thực tế.)

Công thức này cũng giải thích tại sao các nhà thống kê học lại than vãn trong phản ứng với ngôn ngữ đôi khi được sử dụng để kết luận về một kết quả t-test. Ví dụ, một kết quả t-test không mong đợi sẽ được phát biểu : “There is no significant difference…”

Không nhất thiết phải như vậy…

Thực tế là có thể có một độ khác biệt mang ý nghĩa. Nhưng có thể bởi vì mẫu dữ liệu của bạn quá nhỏ, hoặc có thể độ dao động của các điểm dữ liệu quá lớn làm cho nghiên cứu của bạn không thể hiện được ý nghĩa thống kê. Bạn có thể phát biểu một cách an toàn hơn rằng: “Nghiên cứu của chúng tôi đã không tìm thấy chứng cứ của một độ khác biệt mang ý nghĩa thống kê.”

Chia sẻ bài viết

17 thoughts on “Giải thích ý nghĩa của t-test”

    1. Đúng rồi đó em. t-value càng lớn thì tỉ lệ signal/noise càng lớn, tức là độ khác biệt càng chắc chắn hơn 🙂

      1. em đang tìm cả một bài báo khoa học có sử dụng T-test trong bài đó á anh. T-test trường hợp nào cũng được ạ

        1. À anh không tham khảo science paper. Em có thể tìm paper theo chuyên ngành của em. Bài nào dùng hypothesis testing thì chẳng có t-test trong đó em.

  1. Cảm ơn tác giả, mùa dịch này là cơ hội tu luyện lại kiến thức, bắt đầu hiểu sâu sắc hơn về ngành thống kê.

Leave a Comment

Your email address will not be published. Required fields are marked *