Thứ Tư, 17 tháng 10, 2012

Tiên đoán sự thành công của một nhà khoa học

http://scaleogy.com/wp-content/uploads/2012/07/Organizing-For-Success.jpgLàm sao để đánh giá thành tựu của một nhà khoa học? Đó là câu hỏi chiếm biết bao tâm trí và thì giờ của chính các nhà khoa học, đặc biệt là những người phải đối đầu với bình duyệt mỗi 5 năm, thậm chí mỗi năm. Một chỉ số để đo lường thành tựu khoa học là chỉ số H. Nhưng chỉ số H cần có thời gian để ước tính. Vấn đề đặt ra cho một nhà khoa học trẻ là làm sao có thể tiên đoán chỉ số H trong tương lai. Bài báo rất thú vị trên Nature trả lời câu hỏi này cho chúng ta.


Chỉ số H của một nhà khoa học có lẽ là một trong những chỉ số quan trọng nhất mà các nhà tuyển dụng, các cơ quan tài trợ khoa học sử dụng. Trong hàng trăm ứng viên cho một vị trí trong đại học, nhà tuyển dụng có thể dùng chỉ số H như là một thước đo đánh giá tầm ảnh hưởng của nhà khoa học. Ngay cả trong qui trình duyệt đơn xin tài trợ cho nghiên cứu, các hội đồng khoa học cũng thường dựa vào chỉ số H để quyết định cấp hay không cấp tài trợ. Do đó, chỉ số này dù không hoàn hảo (và cũng chẳng có chỉ số nào hoàn chỉnh), nhưng nó là một thước đo mà không một nhà khoa học nào có thể bỏ qua.

Chỉ số H do nhà vật lí Jorge Hirsch đề nghị vào năm 2005. Ngay sau khi công bố, nó đã được “chào đón” một cách nồng nhiệt, vì giới khoa học nghĩ rằng chỉ số này giải quyết được vấn đề số lượng và chất lượng nghiên cứu. Chỉ một con số đơn giản mà giải quyết được một vấn đề gai góc như thế thì ai mà không hoan nghênh. Sau đó, các đại học, viện nghiên cứu, tập san khoa học, cơ quan đánh giá khoa học, v.v. đều dùng chỉ số H như là một thước đo về tầm ảnh hưởng.

Một cách ngắn gọn, chỉ số H được định nghĩa như sau: Chỉ số H của một nhà khoa học là H công trình trong số N công trình của nhà khoa học đó được trích dẫn ít nhất là H lần, và (N – H) được trích dẫn dưới H lần. Ví dụ, nếu một nhà khoa học có chỉ số H = 20 có nghĩa là nhà khoa học này có 20 công trình nghiên cứu với mỗi công trình được trích dẫn ít nhất là 20 lần. Nhà khoa học đó có thể có hàng trăm công trình, nhưng chỉ có 20 bài được trích dẫn trên 20 lần. Theo Hirsch, một nhà vật lí với H = 12 thì có thể đủ tiêu chuẩn để được vào biên chế của một đại học. Một nhà khoa học với H = 20 sau 20 năm nghiên cứu khoa học có thể xem là một nhà khoa học thành công (successful); một chỉ số H = 40 sau 20 năm làm khoa học được xem là xuất sắc, thường hay thấy ở các đại học hàng đầu hay viện nghiên cứu đẳng cấp quốc tế; một chỉ số H = 60 sau 20 năm làm nghiên cứu được xem là thật sự cá biệt (truly unique). Theo bài báo trên Nature, chỉ số H của Einstein là 96, Darwin 63, và Feynman 53. 

Nhưng chỉ số H được tính dựa vào số bài báo đã công bố và tần số trích dẫn (citation). Vấn đề đặt ra cho nhà tuyển dụng hay người đánh giá nhà khoa học là làm sao dự đoán thành công của nhà khoa học. Chẳng hạn như nếu bạn là người đang xem xét duyệt đơn của một ứng viên, những thông tin mà bạn có là danh sách bài báo khoa học, tập san và chỉ số impact factor, và tần số trích dẫn. Làm sao sao bạn có thể biết nhà khoa học này có triển vọng? Để trả lời câu hỏi này, 3 nhà khoa học ở Đại học Chicago thu thập dữ liệu và phát triển một phương trình để dự báo chỉ số H tương lai cho một nhà khoa học.

Họ dựa vào cơ sở dữ liệu của academictree.org với 34,800 nhà khoa học trong lĩnh vực thần kinh học. Họ giới hạn những nhà khoa học có chỉ số H trên 4, và công bố bài báo sau 1995. Sau cùng họ có một mẫu nghiên cứu gồm 3085 nhà khoa học, với các thông như sau:
  • n là số bài báo khoa học công bố;
  • h là chỉ số H hiện tại;
  • y là số năm tính từ năm công bố bài báo đầu tiên;
  • j là số tập san mà nhà khoa học đã công bố;
  • q là số bài báo trên các tập san như Nature, Science, Nature Neuroscience, PNAS, Neuron (nói chung là các tập san hàng đầu trong ngành);

Dựa vào các thông tin trên, họ phát triển phương trình tiên lượng chỉ số H trong tương lai như sau:
Mô hình tiên lượng cho năm tới (R2 = 0.92): 

H(1) = 0.76 + 0.37*sqrt(n) + 0.97h – 0.07y + 0.02j + 0.03q 

Mô hình tiên lượng cho 5 năm tới (R2 = 0.67):
H(5) = 4 + 1.58*sqrt(n) + 0.86h – 0.35y + 0.06j + 0.2q 

Mô hình tiên lượng cho 10 năm tới(R2 = 0.48):
H(10) = 8.73 + 1.33*sqrt(n) + 0.48h – 0.41y + 0.52j + 0.82q

Chú ý, trong các phương trình trên, sqrt có nghĩa là căn số bậc 2. Những ai thích các chi tiết kĩ thuật có thể xem phần Supplement, trong đó tác giả mô tả cách phân tích có thể nói là đầy đủ.
Nếu các bạn lười biếng tính toán thì có thể dùng công cụ tính toán trực tuyến do nhóm tác giả triển khai ở đây: 




https://blogger.googleusercontent.com/img/b/R29vZ2xl/AVvXsEhCCs9NKou010QKCPY1ytZvpYDoGnQ6R-ugHiNlg5-zh0ZHVp7i62pO-XqNExPGF0LA_8nKoN4tXi46ln5uEvVtkftzISre7FWnPGB7_SMD2YiwSi4FjKnrrtMY38K_1zMAH3J-x54krVw/s1600/h-index-prediction.png

Giao diện trang nhà tiên lượng chỉ số H

Nhưng như tác giả báo cáo, phương trình có hệ số R2 = 0.92 cho tiên đoán 1 năm, 0.67 cho 5 năm, và 0.48 cho 10 năm. Nói cách khác, phương trình tiên đoán tốt trong vòng 1 năm, tương đối tốt trong 5 năm, nhưng tiên đoán cho 10 năm thì còn kém. 

Ngoài ra, đứng về mặt phương pháp, tôi thấy còn vài vấn đề có thể bàn thêm. Không thấy tác giả nói gì đến việc kiểm định mô hình (model validation) cả. Một mô hình mà muốn đem ra ứng dụng cho nhiều nhà khoa học cần phải được kiểm định nghiêm chỉnh, nhưng ở đây hình như tác giả chưa làm việc này. Cũng không thấy tác giả báo cáo sai sót trong tiên lượng. Điều đáng nói là mô hình không có yếu tố thời gian. Nhưng dù với vài hạn chế như thế, tôi nghĩ đây là một phát kiến rất hay, rất có ích. Còn gì hay hơn nếu chúng ta có thể dự báo tương lai. Nếu phương trình trên dự báo chính xác, thì đây cũng là phương tiện để biết mình đang đi đúng hướng nghiên cứu, hay nên nghĩ đến một hướng khác. Riêng đối với các nhà tuyển dụng và tài trợ, mô hình này có thể có ích để giúp cho việc nhận ra những “ngôi sao” đang lên một cách khách quan hơn. 

Tham khảo:

Acuma DE, Allesina S, Kording KP. Predicting scientific success. Nature 2012;489:201-2. www.nature.com/nature/journal/v489/n7415/full/489201a.html

Hirsch, J. E. (2005). "An index to quantify an individual's scientific research output," Proceedings of the National Academy of Sciences, 102(46):16569-16572, November 15, 2005 (có thể tải về miễn phí tại arXiv).

0 nhận xét:

Đăng nhận xét