Thứ Hai, 9 tháng 12, 2013

Kết quả của PISA cũng chông chênh như tháp Pisa


Kết quả khảo sát của PISA mới vừa được công bố nhưng đã là đề tài của nhiều tiêu đề báo chí rất tự tin và lạc quan. Những cái tít như “Giáo dục Việt Nam thuyết phục thế giới”, “Chất lượng học sinh Việt Nam gây bất ngờ cho cả thế giới” làm phấn chấn rất nhiều người. Nhưng nếu bình tâm xem xét những phương pháp và dữ liệu đằng sau kết quả của PISA có lẽ chúng ta sẽ có một cái nhìn khách quan và dè dặt hơn.


Những kết quả kiểm định giáo dục của nhóm PISA lúc nào cũng có người hâm mộ và kẻ tức giận. Nước nào có kết quả tốt và được xếp hạng cao, các quan chức và nhà quán lí giáo dục phấn khởi và có cơ sở để biện minh cho nền giáo dục mà họ chịu trách nhiệm. Nhưng những nước được xếp hạng thấp thì các quan chức phải chịu áp lực của dư luận công chúng.  Kết quả xếp hạng của PISA có thể là liều thuốc an thần cho vài người, nhưng cũng làm nhức đầu nhiều người khác. Tuy nhiên, bất cứ công cụ nào cũng có thể bị lạm dụng cho những mục tiêu nằm ngoài dự kiến của nhóm PISA.  Nhưng có lẽ ít ai chịu xem xét cẩn thận cái “cỗ máy” hay cơ chế sản sinh ra bảng xếp hạng của PISA, nên có những phản ứng mang nhiều màu sắc cảm tính. 

Theo tôi, phương pháp kiểm định giáo dục của PISA là một trong những phương pháp tương đối tốt và được nhiều nơi ứng dụng hiện nay. Nhưng qua ứng dụng thực tế, người ta mới phát hiện rằng phương pháp PISA có khá nhiều vấn đề mà nếu không xem xét thì rất dễ dẫn đến diễn giải sai kết quả. Những vấn đề của phương pháp PISA có thể tóm lược trong 3 nhóm: chọn đối tượng, nội dung, và quan trọng hơn hết là phương pháp thống kê. 

Vấn đề chọn đối tượng

PISA cho biết mỗi nước họ lấy mẫu tối thiểu là 4500 học sinh tuổi 15. Dĩ nhiên, những nước nhỏ như Iceland thì số học sinh ít hơn. Ngược lại những nước đông dân thì thỉnh thoảng số học sinh có thể lên đến 30,000 em. Có hai điểm liên quan đến độ tuổi và cỡ mẫu cần bàn ở đây. Học sinh ở tuổi 15 vẫn còn đang trong giai đoạn hình thành khả năng suy luận và lí giải trừu trượng, nên chưa thể phản ảnh hoàn chỉnh khả năng tri thức của các em. Do đó, phương pháp PISA có thể phản ảnh chưa đầy đủ khả năng của học sinh. Cỡ mẫu lớn có lợi nhưng cũng làm cho việc diễn giải kết quả khó hơn. Khi so sánh giữa các nước với cỡ mẫu lớn (trên 4000 đối tượng) thì một khác biệt cho dù chỉ 1 điểm vẫn có thể xem là “có ý nghĩa thống kê” nhưng trong thực tế thì có thể chỉ là khác biệt ngẫu nhiên mà thôi.

Để đảm tính hợp lí ngoại tại (external validity), các nhà nghiên cứu cố gắng duy trì tính đại diện của mẫu, tức bao gồm học sinh xuất thân từ nhiều thành phần xã hội. Nhưng trong thực tế thì tính đại diện không phải lúc nào cũng được duy trì. Ở Mĩ, do sai sót trong cách lấy mẫu và quá trình ngẫu nhiên hoá, nên có năm nhiều em học sinh tham gia vào chương trình kiểm định của PISA xuất thân từ các gia đình nghèo. Chúng ta biết rằng thành phần kinh tế và gia đình là một trong những yếu tố có ảnh hưởng lớn đến học lực của học sinh. Chính vì thế mà kết quả PISA của học sinh Mĩ thường không cao. Nhưng khi các nhà nghiên cứu giáo dục của Đại học Stanford phân tích dữ liệu của PISA bằng cách hiệu chỉnh cho thành phần kinh tế của học sinh thì điểm cao hơn và thứ hạng cũng cao hơn những gì PISA báo cáo.

Trong trường hợp Việt Nam, có lí do để cho rằng những em học sinh tham gia vào chương trình kiểm định của PISA không mang tính đại diện cho cả nước. Một bài báo trên Vietnamnet cho chúng ta biết rằng "Để giới thiệu về các lĩnh vực Toán, Khoa học, Đọc hiểu, VN đã nghiên cứu kỹ tất cả các dạng bài thi PISA đã công bố, tóm tắt và khái quát các dạng bài thi với các yêu cầu kỹ thuật làm từng dạng bài thi, từng loại câu hỏi để giáo viên nắm được kỹ thuật về giới thiệu cho học sinh. Tiếp đó, ngành GD-ĐT tổ chức tập huấn cho cán bộ cốt cán từ trung ương đến địa phương. Để đưa PISA vào trường phổ thông, Bộ chỉ đạo trên toàn quốc các giáo viên đã được tập huấn PISA thông qua các buổi sinh hoạt chuyên môn hàng tuần, thảo luận từng dạng bài thi và các dạng câu hỏi thi PISA. Giáo viên giới thiệu cho học sinh một số câu hỏi thi PISA được in trong tài liệu tập huấn. Có trường xây dựng được mạng nội bộ đã đưa lên mạng các dạng bài thi PISA cho học sinh làm, mở cuộc thi nhỏ tìm hiểu về PISA." Như vậy đây Việt Nam đã chuẩn bị các em cho cuộc thi chọi này, chứ các em không được chọn một cách ngẫu nhiên.


Vấn đề nội dung kiểm định   

Nội dung kiểm định cũng là một vấn đề cần phải biết. PISA chỉ quan tâm đến 3 khía cạnh: toán, khoa học, và đọc hiểu. Không cần nói ra, chúng ta cũng thấy chương trình kiểm định như thế không phản ảnh toàn bộ khả năng học tập của học sinh. Nó càng không phản ảnh được môi trường học tập vốn được xem là quan trọng hơn 3 môn học đó. Có lẽ kết quả PISA cho thấy các em học sinh Việt Nam tham gia đã thuộc bài tốt, và ngoài cái đó thì chúng ta không biết các em còn tốt/dở khía cạnh nào khác. 

Xem qua bộ câu hỏi của PISA, tôi nghĩ những câu hỏi thường thiếu chiều sâu và không phức tạp như chúng ta tưởng. Chẳng hạn như họ cho câu hỏi như sau: một quán ăn bán 2 loại bánh pizza có cùng độ dày nhưng kích thước khác nhau. Bánh nhỏ có đường kính 30 cm và giá 30 USD. Bánh lớn hơn có đường kính 40 cm và giá bán là 40 USD. Hỏi nên mua bánh nào?  Điều này thật ra cũng có lí do, vì PISA chủ trương kiểm định kĩ năng ứng dụng kiến thức chứ không phải kiểm ra kiến thức.  PISA không có chủ trương đo lường khả năng học thuật của họ sinh. 

Do đó, không nên và không bao giờ đặt nặng vào kết quả của PISA. Ngoài nhóm PISA, còn có nhóm TIMSS (Trends in International Maths and Science Study – Xu hướng học toán và khoa học quốc tế) cũng là một nhóm xếp hạng giáo dục có uy tín.  Nhưng kết quả xếp hạng của PISA và TIMSS không nhất quán với nhau. Chẳng hạn như Phần Lan có năm đứng đầu trong bảng xếp hạng của PISA, nhưng lại đứng hạng trung bình của TIMSS. Rất nhiều trường hợp như thế đã xảy ra trong quá khứ.

Có một sự thật rất quan trọng nhưng ít ai chú ý là vấn đề thiếu dữ liệu. Giáo sư Svend Kreiner (Đan Mạch) cho biết chỉ có khoảng 10% học sinh trả lời tất cả 28 câu hỏi đọc hiểu. Điều này có nghĩa là nếu một em học sinh có điểm khoa học là 500 (cũng là điểm trung bình của khối OECD) thì em này chỉ trả lời được 46% câu hỏi mà thôi. Một học sinh có 400 có nghĩa là em này chỉ trả lời 23% số câu hỏi. Nói cách khác, rất nhiều câu hỏi không được trả lời.

Sự thật trên có nghĩa gì? Nó có nghĩa là khi PISA so sánh giữa các nước thì chẳng khác gì so sánh giữa trái cam và trái táo. Một ví dụ để minh họa: học sinh Việt Nam có thể trả lời câu hỏi 1-20, còn học sinh China có thể trả lời câu hỏi 15-28. Những câu hỏi mà học sinh Việt Nam trả lời có thể khó hơn những câu hỏi mà học sinh China trả lời. Do đó, khi so sánh giữa hai nhóm thì kết quả sẽ khó mà khách quan.  

Phương pháp thống kê

Trong tình huống câu hỏi bị bỏ trống như thế, các nhà phân tích của PISA làm gì? Họ sử dụng một mô hình thống kê có tên là Rasch để khắc phục vấn đề. Rất khó giải thích mô hình Rasch trong bài này, nhưng phương pháp này dựa vào giả định rằng các câu hỏi có trọng số như nhau, và cách lấp vào khoảng trống các câu hỏi là dùng xác suất hậu định (posterior probability). Giả định này rất "mạnh" (hiểu theo nghĩa thiếu tính thực tế), bởi vì câu trả lời hay khả năng trả lời có thể còn tuỳ thuộc vào văn hoá của từng nước.

Ngoài ra, họ sử dụng một phương pháp thống kê khác có tên là imputation để lấp vào những câu hỏi mà học sinh bỏ trống. Phương pháp này có thể giải thích nôm na như sau: dựa vào các câu trả lời mà các em học sinh đã làm, nếu các em học sinh trả lời tất cả các câu hỏi, thì kết quả sẽ xảy ra có thể ước tính.  Nói cách khác, các nhà nghiên cứu tạo ra dữ liệu không có thật!  Đây là một phương pháp khá nguy hiểm vì nó tuỳ thuộc vào những câu trả lời mà các em học sinh đã nỗ lực trong test. Trong các công trình nghiên cứu quan trọng rất ít ai dám ứng dụng phương pháp imputation vì nó có thể dẫn đến sai lệch nghiêm trọng.

Về mặt kĩ thuật, tất cả những câu hỏi của PISA rất tương quan với nhau. Phân tích yếu tố (factor analysis) cho thấy một yếu tố duy nhất có thể giải thích từ 75% (Hi Lạp) đến 92% (Hà Lan) phương sai của các câu hỏi. Điều này có nghĩa gì? Nó có nghĩa là khi PISA xếp hạng giữa các nước chủ yếu là dựa vào yếu tố này, nhưng yếu tố này không đồng đều giữa các nước. Nói cách khác, thứ hạng của một nước trong bảng xếp hạng có thể thay đổi nếu xem xét đến yếu tố thứ 2 hay thứ 3. Nói cách khác nữa, bảng xếp hạng của PISA không nói gì về sự thông minh của học sinh Việt Nam, càng không phản ảnh chất lượng giáo dục của Việt Nam.

Hiểu kết quả PISA như thế nào?

Theo tôi thì kết quả PISA có thể xem là thú vị và chỉ dừng ở đó, chứ không nên dựa vào đó mà đánh giá học sinh VN hơn ai (hay kém ai). Khi cách chọn mẫu một cách chọn lọc thì mọi kết quả phải đặt trong vòng nghi ngờ lành mạnh. Nên nhớ rằng đây chỉ là chương trình test cho mộtnhóm học sinh ở một độ tuổi (15) và chỉ tập trung vào 3 môn học (toán, khoa học, và đọc hiểu). Kết quả của PISA do đó chỉ là một “bức hoạ” ở một thời điểm nhất định, chứ không phản ảnh điểm lâu dài của học sinh. 

Trong khoa học có câu “garbage in, garbage out” (số liệu đầu vào là rác thì kết quả đầu ra cũng chỉ là rác). Với “bệnh thành tích” kinh niên ở Việt Nam thì mọi số liệu đều đáng nghi ngờ vì nó đã qua một qui trình tuyển chọn có hệ thống. Mà, cho dù tuyển chọn ngẫu nhiên thì qui trình “xào nấu” bằng phương pháp của PISA cũng đủ để chúng ta đặt câu hỏi. Xin nhớ cho rằng: trong khoa học, BẤT CỨ kết quả nào quá đẹp cũng đều đáng nghi ngờ. Do đó, tôi nghĩ kết quả của PISA chưa thể xem là chứng cứ để nói rằng tính trung bình học sinh Việt Nam nằm trong nhóm “ngôi sao” trên thế giới.

Nhưng hơn hết, tôi nghĩ không thể hay rất khó so sánh điểm của học sinh trong một hệ thống học vẹt với điểm của học trong một hệ thống “học mở” ở các nước phương Tây. Càng không thể so sánh khi những nước bị “bệnh thành tích” nên dồn tài lực để cải tiến điểm PISA và mấy nước phương Tây vốn không đầu tư vào việc nâng điểm trong bảng xếp hạng của PISA. Chạy theo những bảng xếp hạng như thế này chỉ làm chúng ta sao lãng vấn đề lớn hơn trong giáo dục - đó là cải cách. 

TB: Bài đã đăng trên Tuần Việt Nam



0 nhận xét:

Đăng nhận xét