Thứ Tư, 4 tháng 12, 2013

PISA và vấn đề phương pháp


Các nhà quản lí giáo dục và quan chức giáo dục có lẽ rất vui mừng và bất ngờ trước kết quả của PISA cho thấy học sinh Việt Nam là một trong những “ngôi sao” về toán và khoa học trên thế giới, theo cách đánh giá và xếp hạng của PISA. Nhưng tôi thì nghĩ không có cách xếp hạng nào là hoàn hảo cả, và phương pháp của PISA càng có nhiều vấn đề có thể làm lệch kết quả xếp hạng. Không nên vội vàng vui mừng với kết quả của PISA!

Nếu không hiểu được phương pháp thống kê của PISA thì rất khó đánh giá độ tin cậy của kết quả. Mà, hiểu được thì có lẽ người ta sẽ dè dặt hơn trong việc diễn giải kết quả xếp hạng của PISA. Những vấn đề của PISA làm tôi quan tâm và dè dặt là cách họ lấy mẫu và nhất là phương pháp thống kê. Ở đây, tôi chỉ ghi vài ghi chú nhanh sau khi đọc qua báo cáo của họ.

Trước hết là vấn đề lấy mẫu nhóm học sinh tham gia. PISA cho biết mỗi quốc gia họ lấy mẫu tối thiểu là 4500 học sinh tuổi 15 (dĩ nhiên nước nhỏ như Iceland thì số học sinh ít hơn). Một vài nơi như Úc thì số học sinh lên đến 30,000 em. Theo nguyên tắc thì học sinh xuất thân từ nhiều thành phần kinh tế xã hội khác nhau, nhưng tôi không thấy họ hiệu chỉnh kết quả cho những khác biệt về thành phần kinh tế xã hội. Nếu không hiệu chỉnh cho yếu tố này thì khác biệt giữa các nước là có thể do thành phần kinh tế chứ chẳng phải do khả năng của học sinh. VN có thể có hạng cao nếu VN chỉ chọn học sinh từ thành thị và một phần nhỏ từ nông thôn. Đây cũng là một điểm yếu mà rất nhiều nhà nghiên cứu giáo dục chỉ ra trong quá khứ.

Có lí do để cho rằng những em học sinh tham gia vào chương trình test PISA không mang tính đại diện cho cả nước. Một bài báo trên Vietnamnet cho chúng ta biết rằng "Để giới thiệu về các lĩnh vực Toán, Khoa học, Đọc hiểu, VN đã nghiên cứu kỹ tất cả các dạng bài thi PISA đã công bố, tóm tắt và khái quát các dạng bài thi với các yêu cầu kỹ thuật làm từng dạng bài thi, từng loại câu hỏi để giáo viên nắm được kỹ thuật về giới thiệu cho học sinh. Tiếp đó, ngành GD-ĐT tổ chức tập huấn cho cán bộ cốt cán từ trung ương đến địa phương. Để đưa PISA vào trường phổ thông, Bộ chỉ đạo trên toàn quốc các giáo viên đã được tập huấn PISA thông qua các buổi sinh hoạt chuyên môn hàng tuần, thảo luận từng dạng bài thi và các dạng câu hỏi thi PISA. Giáo viên giới thiệu cho học sinh một số câu hỏi thi PISA được in trong tài liệu tập huấn. Có trường xây dựng được mạng nội bộ đã đưa lên mạng các dạng bài thi PISA cho học sinh làm, mở cuộc thi nhỏ tìm hiểu về PISA." Như vậy đây Việt Nam đã chuẩn bị cho cuộc thi chọi này. Do đó, những con số liên quan đến Việt Nam chẳng có ý nghĩa so sánh gì với các nước khác (như Úc) nơi mà học sinh không cần chuẩn bị cho PISA. Đúng như một bạn đọc nhận xét, Việt Nam đúng là mảnh đất màu mỡ cho … luyện gà. 

Một điểm đáng nói về xếp hạng dựa vào điểm là với một cỡ mẫu lớn như thế thì một khác biệt cho dù chỉ 1 đơn vị (hay 1 điểm) vẫn có thể xem là “có ý nghĩa thống kê” (statistically significant) nhưng trong thực tế thì có thể chỉ là khác biệt ngẫu nhiên mà thôi.

Kế đến là vấn đề "response rate" khá nghèo nàn. Mỗi học sinh tiêu ra 3 giờ trong chương trình test. Nhưng không phải em nào cũng làm tất cả câu hỏi. Theo một báo cáo trước đây thì học sinh tham gia chương trình test của PISA chỉ trả lời một số câu hỏi mà thôi. Chỉ có phân nửa học sinh trả lời bất cứ một câu hỏi nào về đọc, trong khi đó 40% học sinh chỉ được kiểm định 14 trong số 28 câu hỏi về đọc. Do đó, chỉ có ~10% học sinh tham gia chương trình test được kiểm định tất cả 28 câu hỏi. Ngay cả học sinh có điểm trung bình của khối OECD (tức 500 điểm) thì em này cũng chỉ trả lời được 46% câu hỏi mà thôi, còn em nào có điểm 400 chỉ trả lời 23% tổng số câu hỏi.

Đó là một điều rất quan trọng nhưng ít ai chú ý trong dữ liệu của PISA, vì nó ảnh hưởng rất lớn đến xếp hạng. Nó có nghĩa là khi PISA so sánh giữa các nước thì chẳng khác gì so sánh giữa trái cam và trái táo. Một ví dụ để minh họa: học sinh Việt Nam có thể trả lời câu hỏi 1-20, còn học sinh Tàu có thể trả lời câu hỏi 15-28. Như vậy thì làm sao so sánh giữa hai nhóm được. Do đó, bảng xếp hạng của PISA theo tôi là chẳng có ý nghĩa gì cả.  

Vấn đề quan trọng hơn là phương pháp thống kê. Trong tình huống "missing data" như thế, các nhà phân tích của PISA làm gì? Họ sử dụng một mô hình thống kê có tên là Rasch (rất khó giải thích trong bài này, nhưng nó xuất phát từ nhà tâm lí học tên là Georg Rasch), với giả định rằng 5 giá trị cho mỗi học sinh được xác định bằng một xác suất hậu định (posterior probability). Vấn đề của mô hình Rasch là nó giả định rằng độ khó khăn của câu hỏi và khoảng cách về khó khăn trong mỗi câu trả lời là đồng đều nhau giữa các nước. Giả định này rất "mạnh" (hiểu theo nghĩa thiếu tính thực tế), bởi vì câu trả lời hay khả năng trả lời có thể còn tuỳ thuộc vào văn hoá của từng nước. Nói tóm lại, mô hình Rasch có nhiều điều cần phải bàn thêm, chứ không hẳn là mô hình tối ưu nhất trong trường hợp có quá nhiều câu hỏi bỏ trống.

Ngoài ra, họ sử dụng một phương pháp thống kê khác có tên là imputation để lấp vào những câu hỏi mà học sinh bỏ trống. Đây là một phương pháp nguy hiểm vì nó tuỳ thuộc vào những câu trả lời mà các em học sinh đã nỗ lực trong test. Trong các công trình nghiên cứu quan trọng rất ít ai dám ứng dụng phương pháp imputation vì nó có thể dẫn đến sai lệch nghiêm trọng. Đó là một cách mô phỏng dữ liệu (hay có người xem là “nhân tạo” dữ liệu). Trong thực tế một giáo sư y khoa đã đi tù vì ông sử dụng phương pháp này để có bài báo khoa học và xin được tài trợ từ NIH! Ông giáo sư này chỉ theo dõi 1 hay 2 phụ nữ trước và sau mãn kinh, phần 20 người còn lại ông không theo dõi được nên dùng phương pháp imputation. Nói như thế để thấy phương pháp này chưa được cộng đồng khoa học chấp nhận. 

Về mặt kĩ thuật, tất cả những câu hỏi của PISA rất tương quan với nhau. Phân tích yếu tố (factor analysis) cho thấy một yếu tố duy nhất có thể giải thích từ 75% (Hi Lạp) đến 92% (Hà Lan) phương sai của các câu hỏi. Điều này có nghĩa gì? Nó có nghĩa là khi PISA xếp hạng giữa các nước chủ yếu là dựa vào yếu tố này, nhưng yếu tố này không đồng đều giữa các nước. Nói cách khác, thứ hạng của một nước trong bảng xếp hạng có thể thay đổi nếu xem xét đến yếu tố thứ 2 hay thứ 3. Nói cách khác nữa, bảng xếp hạng của PISA không nói gì về sự thông minh của học sinh VN, càng không phản ảnh chất lượng giáo dục của VN vốn đang rất cần cải cách. 

Theo tôi thì kết quả PISA có thể xem là thú vị và chỉ dừng ở đó, chứ không nên dựa vào đó mà đánh giá học sinh VN hơn ai (hay kém ai). Khi cách chọn mẫu một cách chọn lọc thì mọi kết quả phải đặt trong vòng nghi ngờ lành mạnh. Nên nhớ rằng đây chỉ là chương trình test cho một nhóm học sinh ở một độ tuổi (15) và chỉ tập trung vào 3 môn học (toán, khoa học, và đọc hiểu). Ở độ tuổi 15 thì khả năng suy luận và lí giải trừu trượng vẫn đang hình thành chứ chưa hoàn chỉnh. Kết quả của PISA do đó chỉ là một snapshot ở một thời điểm nhất định, chứ không phản ảnh điểm lâu dài của học sinh. 

Chương trình test PISA này không phản ảnh toàn bộ khả năng học tập của học sinh. Nó càng không phản ảnh được môi trường học tập vốn được xem là quan trọng hơn 3 môn học đó. Có lẽ kết quả PISA cho thấy các em học sinh Việt Nam tham gia đã thuộc bài tốt, và ngoài cái đó thì chúng ta không biết các em còn tốt/dở khía cạnh nào khác. 

Trong khoa học có câu “garbage in, garbage out” (số liệu đầu vào là rác thì kết quả đầu ra cũng chỉ là rác). Với “căn bệnh thành tích” kinh niên ở VN thì mọi số liệu đều đáng nghi ngờ vì nó đã qua một qui trình tuyển chọn có hệ thống, mà cho dù tuyển chọn ngẫu nhiên đi nữa thì qui trình “xào nấu” bằng phương pháp của PISA cũng đủ để chúng ta đặt câu hỏi. Xin nhớ cho rằng: trong khoa học, BẤT CỨ kết quả nào quá đẹp cũng đều đáng nghi ngờ. Do đó, tôi nghĩ kết quả của PISA chưa thể xem là chứng cứ để nói rằng tính trung bình học sinh Việt Nam nằm trong nhóm “ngôi sao” trên thế giới.

Nhưng hơn hết, tôi nghĩ không thể hay rất khó so sánh điểm của học sinh trong một hệ thống học vẹt (kiểu VN, Hàn Quốc và China) với điểm của học trong một hệ thống học “free” ở các nước phương Tây. Càng không thể so sánh khi những nước bị “bệnh thành tích” nên dồn tài lực để cải tiến điểm PISA và mấy nước phương Tây vốn không đầu tư vào việc nâng điểm trong bảng xếp hạng của PISA. Chạy theo những bảng xếp hạng như thế này chỉ làm chúng ta sao lãng vấn đề lớn hơn trong giáo dục - đó là cải cách. 

0 nhận xét:

Đăng nhận xét