Sigma: bao nhiêu thì đáng tin cậy?

Đó là câu hỏi phát sinh với hầu như mọi kết quả mới trong khoa học hoặc y khoa: Cái gì khiến một kết quả đủ tin cậy để xem xét nghiêm túc? Câu trả lời là phải tính ý nghĩa thống kê – nhưng cũng phải tính đến những tiêu chuẩn nào là có nghĩa trong một tình huống cho trước.

Số liệu thực nghiệm thường được cung cấp cùng với ý nghĩa thống kê là độ lệch chuẩn, biểu diễn bằng chữ cái Hi Lạp in thường sigma (σ). Thuật ngữ này chỉ lượng biến thiên trong một tập số liệu cho trước: các điểm số liệu có hội tụ với nhau hay là rất phân tán.

Trong nhiều trường hợp, kết quả của một thí nghiệm tuân theo cái gọi là “phân bố bình thường”. Chẳng hạn, nếu bạn tung một đồng xu 100 lần và đếm xem bao nhiêu lần nó lật ngửa, thì kết quả trung bình sẽ là 50. Nhưng nếu bạn làm phép thử này 100 lần, thì đa số kết quả sẽ gần giá trị 50, nhưng không đúng bằng 50. Phần lớn trường hợp bạn thu được kết quả là 49, hoặc 51. Bạn ít khi thu được kết quả 45 hoặc 55, còn 20 và 80 thì hầu như không có. Nếu bạn vẽ đồ thị 100 lần thử đó, bạn sẽ thu được một hình dạng nổi tiếng gọi là đường cong hình chuông cao nhất ở chính giữa và hạ dần ở hai bên. Đó là một phân bố bình thường.

Đồ thị hình chuông của một phân bố “thường”.

Đồ thị hình chuông của một phân bố “thường”. Những đường thẳng đứng ở hai bên biểu diễn những khoảng một, hai và ba sigma.

Độ lệch cho biết một điểm số liệu cho trước sai khác với giá trị trung bình là bao nhiêu. Trong ví dụ tung đồng xu, một kết quả 47 có độ lệch là 3 khỏi giá trị trung bình 50. Độ lệch chuẩn là căn bậc hai của giá trị trung bình của tất cả độ lệch bình phương lên. Một độ lệch chuẩn, hay một sigma, vẽ phía trên hoặc phía dưới giá trị trung bình trên đường cong phân bố bình thường, sẽ định ra một vùng gồm 68% của toàn bộ các điểm dữ liệu. Hai sigma ở phía trên hoặc phía dưới sẽ bao gồm khoảng 95% số liệu, và ba sigma sẽ bao gồm 99,7%.

Vậy khi nào một điểm số liệu nhất định – hay kết quả nghiên cứu – được xem là có nghĩa? Độ lệch chuẩn có thể mang lại một thước đo: Nếu một điểm số liệu cách mô hình được kiểm tra một vài độ lệch chuẩn, thì đây là bằng chứng mạnh mẽ cho thấy điểm số liệu đó không khớp với mô hình đó. Tuy nhiên, làm thế nào sử dụng thước đo này thì tùy thuộc vào tình huống cụ thể. Giáo sư John Tsitsiklis tại MIT, người giảng dạy Cơ sở Xác suất, phát biểu, “Thống kê là một nghệ thuật, với rất nhiều chỗ cho sự sáng tạo và sai lầm”. Một phần của nghệ thuật đó là xác định xem những số đo nào là có nghĩa trong một tình huống đã cho.

Ví dụ, nếu bạn tổ chức một cuộc trưng cầu xem có bao nhiêu người định bỏ phiếu cho một ứng cử viên nào đó, thì quy ước được chấp nhận là hai độ lệch chuẩn phía trên hoặc phía dưới trị trung bình, cái cho mức độ tin cậy 95%, là hợp lí. Khoảng hai sigma đó là cái mà những người đi trưng cầu dân ý muốn nói khi họ nói tới “biên của sai số lấy mẫu”, ví dụ 3%, trong kết quả của họ.

Điều đó có nghĩa nếu bạn hỏi toàn bộ một nhóm dân cư một câu hỏi khảo sát và thu được một câu trả lời nhất định, sau đó bạn hỏi câu hỏi đó với một nhóm ngẫu nhiên gồm 1000 người, thì có 95% khả năng kết quả của nhóm thứ hai sẽ rơi vào trong vùng hai sigma với kết quả thứ nhất. Nếu một cuộc trưng cầu ý kiến tìm thấy rằng 55% số người nghiêng về ứng cử viên A, thì 95% lần hỏi, kết quả của lần trưng cầu thứ hai sẽ là đâu đó giữa 52 và 58%.

Tất nhiên, điều đó cũng có nghĩa 5% số lần hỏi, kết quả sẽ nằm ngoài vùng hai sigma đó. Sai số nhiều như thế là cái hay cho một cuộc trưng cầu ý kiến, nhưng có lẽ không tốt cho kết quả của một thí nghiệm quan trọng đang thách thức kiến thức của các nhà khoa học về một hiện tượng quan trọng – ví dụ như hồi mùa thu năm ngoái người ta công bố có khả năng phát hiện ra những hạt neutirno chuyển động nhanh hơn tốc độ ánh sáng trong một thí nghiệm tại Trung tâm nghiên cứu Hạt nhân châu Âu (CERN).

Sáu sigma có khi vẫn sai

Về mặt kĩ thuật, kết quả của thí nghiệm đó có độ tin cậy rất cao: sáu sigma. Trong đa số trường hợp, một kết quả năm sigma được xem là tiêu chuẩn vàng có nghĩa, tương ứng với khoảng một phần một triệu khả năng tìm kiếm đó chỉ là một kết quả của sự biến thiên ngẫu nhiên; sáu sigma được dịch là một trong nửa tỉ cơ hội kết quả đó là một sai số ngẫu nhiên. (Một chiến lược quản lí kinh doanh nổi tiếng có tên gọi là “Sáu Sigma” lấy ý nghĩa từ thuật ngữ này, và được xây dựng trên những thủ tục quản lí chất lượng hết sức nghiêm ngặt để giảm thiểu lãng phí.)

Nhưng trong thí nghiệm CERN đó, thí nghiệm có khả năng lật đổ một cột trụ vật lí đã được chấp nhận một thế kỉ qua và đã được xác nhận trong hàng nghìn loại kiểm nghiệm khác nhau, kết quả vẫn chưa gần như đủ tốt. Trước tiên, giả sử rằng các nhà nghiên cứu đã thực hiện phân tích đúng và đã không bỏ sót một số nguồn sai số hệ thống. Và vì kết quả quá bất ngờ và mang tính cách mạng, nên cái đa số các nhà vật lí nghĩ tới là một nguồn sai số nào đó chưa phát hiện ra.

Thật thú vị, một bộ kết quả khác cũng từ chính máy gia tốc hạt CERN lại được lí giải khá khác.

Một phát hiện có khả năng xảy ra của cái gọi là boson Higgs – hạt hạ nguyên tử trên lí thuyết sẽ giúp giải thích tại sao các hạt có khối lượng – cũng được công bố hồi năm ngoái. Kết quả đó chỉ có mức độ tin cậy 2,3 sigma, tương ứng với khoảng một trong 50 cơ hội kết quả đó là một sai số ngẫu nhiên (độ tin cậy 98%). Nhưng vì nó khớp với cái được trông đợi dựa trên lí thuyết vật lí hiện nay, nên đa số các nhà vật lí nghĩ rằng kết quả trên có khả năng là đúng, bất chấp mức độ tin cậy thống kê nhỏ hơn nhiều của nó.

Có nghĩa nhưng không đúng

Nhưng trong những lĩnh vực khác, vấn đề còn phức tạp hơn. “Nơi khái niệm này thật sự náo nhiệt là trong khoa học xã hội và trong y khoa,” Tsitsiklis nói. Ví dụ, một bài báo hồi năm 2005 được trích dẫn rộng rãi trên tạp chí Public Library of Science — mang tựa đề “Tại sao đa số các kết quả nghiên cứu được công bố là sai” — có cung cấp một phân tích chi tiết gồm nhiều yếu tố phong phú có thể dẫn tới những kết luận phi lí. Tuy nhiên, những yếu tố này đã không được tính đến trong các số đo thống kê điển hình được sử dụng, trong đó có “ý nghĩa thống kê”.

Bài báo trình bày rằng khi nhìn vào những tập số liệu lớn theo đủ cách khác nhau, thật dễ tìm thấy những ví dụ vượt qua điều kiện thông thường về ý nghĩa thống kê, mặc dù chúng thật sự chỉ là những biến thiên ngẫu nhiên. Vâng, ngay cả với mức độ tin cậy năm sigma, nếu một máy vi tính duyệt qua hàng triệu khả năng, thì một số khuôn mẫu hoàn toàn ngẫu nhiên phù hợp với những điều kiện đó sẽ được phát hiện ra. Khi điều đó xảy ra thì tốt hơn hết bạn đừng nên công bố gì cả.

Một ví dụ: Nhiều bài báo đã công bố hồi thập niên trước khẳng định những tương quan đáng kể giữa những loại hành vi nhất định hoặc những quá trình tư duy và hỉnh ảnh bộ não chụp bởi phương pháp cộng hưởng từ, hay MRI. Nhưng đôi khi những thử nghiệm này có thể tìm thấy những tương quan biểu kiến chỉ là kết quả của những thăng giáng tự nhiên, hay “sự nhiễu”, trong hệ thống. Một nhà nghiên cứu hồi năm 2009 đã lặp lại một thí nghiệm như vậy, về sự ghi nhận cảm xúc trên gương mặt, thay vì tiến hành với con người ông đã quét một con cá chết – và đã tìm thấy những kết quả “có nghĩa”.

“Nếu bạn nhìn vào đủ chỗ, bạn có thể thu được kết quả ‘con cá chết”, Tsitsiklis nói. Ngược lại, trong nhiều trường hợp một kết quả có ý nghĩa thống kê thấp vẫn có thể “cho bạn biết có cái đáng để nghiên cứu”.

Vì thế bạn nên nhớ rằng, chỉ vì cái gì đó phù hợp với một định nghĩa được chấp nhận của “sự có nghĩa” thì không nhất thiết là nó có nghĩa. Nó còn tùy thuộc vào ngữ cảnh.

Trọng Nhân – thuvienvatly.com
Theo MIT (web)