Hiển thị các bài đăng có nhãn data ink ratio. Hiển thị tất cả bài đăng
Hiển thị các bài đăng có nhãn data ink ratio. Hiển thị tất cả bài đăng

Thứ Sáu, 8 tháng 3, 2013

Biểu đồ trong bài báo khoa học 4: mật độ dữ liệu

http://ed-informatics.org/wp-content/uploads/2010/03/Tufte-Chartjunk.pngNguyên tắc số 3 trong trình bày biểu đồ là tối đa hoá mật độ dữ liệu (data density index). Hai bài trước đã bàn về tỉ số dữ liệu trên mực inchỉ số dối. Trong bài này tôi sẽ bàn về mật độ dữ liệu và sự nhất quán trong cách trình bày. Ngoài ra, tôi cũng chia sẻ một loại biểu đồ mà Edward Tufte đặt tên là junk chart (biểu đồ rác rưởi) rất phổ biến trong báo chí. Đây là bài cuối cùng trong loạt bài viết về cách trình bày dữ liệu bằng bảng đồ. 

 
Tufte định nghĩa mật độ dữ liệu (data density index hay DDI) là số số liệu tính trên diện tích của biểu đồ. Nguyên tắc chung là tối đa hoá DDI, vì mục tiêu chính của nhà khoa học là trình bày dữ liệu càng nhiều càng tốt.

Biểu đồ dưới đây trình bày số đối tượng nghiên cứu cho nhóm nam và nữ. Trong thực tế, biểu đồ này rất vô dụng vì tất cả chỉ có 2 số liệu mà thôi, nhưng chiếm rất nhiều không gian. Nếu chúng ta đo chiều cao và chiều ngang của biểu đồ (có thể tính bằng cm) thì sẽ có diện tích. Nhưng giả dụ như diện tích của biểu đồ là 10 cm^2, thì mật độ dữ liệu chỉ 2 / 10 = 0.2, tức rất thấp. Trong trường hợp này, tác giả không cần đến biểu đồ, mà chỉ đơn giản mô tả bằng chữ là đủ.

Hình 13: Số học sinh phân chia theo giới tính

Biểu đồ dưới đây thể hiện mối tương quan giữa chiều cao (trục hoành) và trọng lượng (trục tung). Tác giả còn dùng màu để phân biệt dữ liệu cho nam và nữ. Biểu đồ có rất nhiều dữ liệu và thông tin. Đây là biểu đồ có mật độ dữ liệu cao, và có thể xem là rất tốt.

Hình 14: Mối tương quan giữa chiều cao và cân nặng cho nam và nữ

Edward Tufte làm một nghiên cứu nhỏ để so sánh mật độ dữ liệu của các tạp chí khoa học phổ thông và khoa học chuyên môn. Kết quả cho thấy tập san khoa học như Nature có mật độ dữ liệu cao nhất (7.4) so với Scientific American (0.8) và Times (2.8). Bài học ở đây là để tăng cao xác suất công bố trên những tập san lớn, cần chú ý đến tối ưu hoá mật độ dữ liệu trong biểu đồ.

Nhất quán trong cách thể hiện dữ liệu
 
Một nguyên tắc quan trọng khác trong thể hiện dữ liệu là trình bày những biến đổi của dữ liệu, chứ không phải thay đổi hình thức (như màu) để thể hiện một dữ liệu. Biểu đồ dưới đây là một ví dụ cho sự “vi phạm” nguyên tắc vừa đề cập:

Hình 15:Phần trăm hút thuốc lá qua trong thời gian 1974 đến 1994

Tác giả dùng hai màu xanh một cách luân phiên để chỉ mô tả tỉ lệ hút thuốc ở Anh. Năm thì không rõ ràng, đáng lẽ phải là 1974, 1978, 1982, …, 1994, nhưng tác giả để cho người đọc phải suy đoán. Đó là một điều đại kị trong phương pháp trình bày dữ liệu. Ngoài ra, những con số phần trăm (45%, 40%, v.v.) hình như được đặt vào những vị trí rất tuỳ tiện, chứ chẳng theo một qui luật nào cả. Có thể xem đây là một biểu đồ rất kém. Biểu đồ này có thể thiết kế lại tốt hơn, nhưng tôi để cho bạn đọc suy nghĩ và thử làm :-).

Tránh biểu đồ rác rưởi (Chart junk)! 

Thuật ngữ “Chart Junk” cũng là một sáng kiến của Edward Tufte. Ông gọi biểu đồ rác rưởi là cách thể hiện dữ liệu một cách “hoa hoè” hay loè loẹt. Đây là cách thể hiện dữ liệu của giới báo chí hay nghệ sĩ. Những người này vì không am hiểu khoa học, nên hay lạm dụng những hình ảnh làm độc giả thiếu tập trung vào thông điệp chính của dữ liệu. Cần tránh những biểu đồ rác rưởi.  

Một ví dụ tiêu biểu về biểu đồ rác rưởi mà Edward Tufte lấy ra để làm minh hoạ là biểu đồ dưới đây. Biểu đồ trình bày giá của kim cương từ năm 1978 đến 1982. Thay vì đường biểu diễn màu đỏ là đủ, người thiết kế biểu đồ cho thêm hình ảnh một cô gái trong tư thế gợi cảm. Với biểu đồ này, chắc chắn làm cho phần lớn người đọc không chú ý vào dữ liệu mà chăm chú nhìn vào cô gái, và thế là tác giả không đạt được mục tiêu của mình.

Hình 16: Biểu đồ biến động giá kim cương
Biểu đồ có thể giúp cho chúng ta “dấn thân” vào chủ đề nghiên cứu mà có khi chữ không làm được. Thiết kế biểu đồ tốt cũng đòi hỏi nỗ lực cao như viết một bài báo khoa học. Một biểu đồ tốt có thể đi vào lịch sử và tồn tại với thời gian rất lâu. Chúng ta hay thấy có nhiều sách giáo khoa hay những bài giảng có những biểu đồ thuộc vào hạng cổ điển, vì những biểu đồ đó chuyển tải thông tin đầy đủ và đạt những chuẩn mực về thiết kế biểu đồ mà tôi trình bày trên đây. Do đó, cần phải đầu tư thời gian và công sức vào cách trình bày dữ liệu và thiết kế biểu đồ.
Trước khi soạn một biểu đồ, cần phải trả lời những câu hỏi sau đây:
  • Ai là độc giả của biểu đồ, hay ai sẽ dùng?
  • Chọn hình thức thể hiện (biểu đồ thanh, biểu đồ tán xạ, v.v.)
  • Sắp xếp dữ liệu thích hợp cho trục tung và trục hoành.
  • Thêm vào các biến cần thiết.
  • Biên tập nhiều lần để tăng mật độ dữ liệu.
Sau đó là tuân thủ theo 4 nguyên tắc vừa mô tả trên. Xin nhắc lại đó là nguyên tắc tối ưu hoá yếu tố dối, tỉ số dữ liệu trên mực in, tỉ số dữ liệu trên diện tích biểu đồ, và tránh những hình thức màu mè (rác rưởi) dễ làm cho người đọc xa rời thông điệp chính của số liệu. Hi vọng rằng những nguyên tắc và chỉ dẫn trên đây sẽ giúp cho các bạn có được một bài báo khoa học tốt và những biểu đồ đi vào lịch sử. :-)
N.V.T
Xem các bài trước:
TB. Sau đây là vài biểu đồ trước và sau khi biên tập / thiết kế lại:
Biểu đồ 17 trước:
Biểu đồ 17 sau khi thiết kế lại:

Biểu đồ 18 (trước):

Biểu đồ 18 (sau):
 
Biểu đồ 19 (trước):

Biểu đồ 19 (sau):


Biểu đồ 20 (trước):

Biểu đồ 20 (sau):
 
Biểu đồ 21 (trước):


Biểu đồ 21 (sau):


Một số biểu đồ "junk" trên báo chí VN





Biểu đồ trong bài báo khoa học 3: tỉ số dữ liệu trên mực in

http://www.infovis-wiki.net/images/thumb/5/55/DIR.jpg/600px-DIR.jpgChỉ số dối (lie factor) phản ảnh mức độ ảnh hưởng thể hiện trên biểu đồ so với mức độ ảnh hưởng thể hiện qua dữ liệu. Dĩ nhiên, đó chỉ là hiệu ứng thị giác, chứ trong thực tế thì con số vẫn là … con số, không thể thay đổi được. Một khía cạnh khác trong việc trình bày biểu đồ là lượng dữ liệu và lượng mực in. Một biểu đồ có quá nhiều mực in mà quá ít dữ liệu không chỉ là một sự phí phạm mà còn là một biểu đồ tồi. Để đo sự tương quan giữa lượng mực in và lượng mực dành cho biểu đồ, Edward Tufte đề nghị dùng chỉ số dữ liệu trên mực in (data – ink ratio). 



Để cảm nhận được vấn đề, chúng ta có thể xem qua biểu đồ dưới đây:



Biểu đồ trên mô tả mối liên hệ giữa hai biến số (thể hiện qua trục hoành và trục tung). Nhìn qua thì cũng không có vấn đề gì nghiêm trọng, nhưng nếu nhìn kĩ chúng ta dễ dàng thấy biểu đồ quá nghèo nàn. Tất cả biểu đồ thật ra chỉ có 2 số liệu. Nhưng những “thông số” của biểu đồ thì rất nhiều. Màu nền là màu xám, tốn rất nhiều mực. Biểu đồ có 8 lằn ngang, 13 chữ số cho trục tung và trục hoành. Nếu tính diện tích mực in của biểu đồ thì chắc cũng phải 60 cm^2! Ấy thế mà chỉ có 2 số liệu trên ngần ấy diện tích. Biểu đồ này có vấn đề.

Một nguyên tắc quan trọng trong thiết kế biểu đồ là sử dụng mực in để trình bày dữ liệu chứ không phải để trang trí cho biểu đồ. Do đó, Tufte đề nghị dùng tỉ số mực in dành cho dữ liệu trên tổng số lượng mực in để đánh giá một biểu đồ. Nói cách khác, gọi DIR (data-ink ratio) là tỉ số dữ liệu và mực in, DIR được định nghĩa như sau:

DIR = (số mực dùng cho dữ liệu) / (tổng số mực dùng trong biểu đồ)

Tỉ số này cũng có thể hiểu như là tỉ số của tín hiệu trên nhiễu (signal over noise ratio). Tỉ số này cũng nên gần bằng 1. Theo đó, nên xoá bỏ những mực in không dùng cho dữ liệu hay thừa thải. Để minh hoạ cho khái niệm DIR, chúng ta có thể xem qua biểu đồ dưới đây:

Hình 7: Thời gian cần thiết để làm xong một việc cho 4 nhóm tình nguyện viên 

Trong biểu đồ trên, chúng ta dễ dàng thấy có quá nhiều mực dành cho trang trí. Thứ nhất là màu nền (màu xám nhạt) là không cần thiết. Tại sao cần màu nền? Thứ hai là legend, “Time (min)”, cũng không cần thiết. Thứ ba là những đường ngang cũng không cần thiết. Ngay cả cách viết “Group A”, “Group B”, v.v. lặp lại chữ “Group” đến 4 lần! Biểu đồ trên có thể thiết kế lại như sau, bằng cách bỏ màu nền:  

Hình 8: Thời gian cần thiết để làm xong một việc cho 4 nhóm tình nguyện viên (vẽ lại) 

Thật ra, cách chọn biểu đồ thanh cũng có thể phải thảo luận thêm, bởi vì biểu đồ này không phản ảnh đầy đủ dữ liệu. Biểu đồ thanh trên đây chỉ phản ảnh có thể là số trung vị hay trung bình, và 4 chữ số này có thể mô tả bằng chữ chứ không cần đến biểu đồ. Tuy nhiên, nếu chọn biểu đồ, chúng ta cần phải chọn biểu đồ khác để thể hiện dữ liệu. Tôi nghĩ biểu đồ hộp sẽ thích hợp hơn. Với biểu đồ hộp, chúng ta có thể trình bày số trung bình, trung vị, cự li, độ lệch chuẩn, v.v. Do đó, ngay cả cách thiết kế trên cũng chưa tối ưu.

Dưới đây là một ví dụ về biểu đồ có quá nhiều mực cho trang trí:

Hình 9: Mối tương quan giữa hai biến số

Biểu đồ này có quá nhiều gridlines dễ làm cho người xem mất tập trung. Có thể đơn giản thành:


Hình 10: Mối tương quan giữa hai biến số (biên tập lần 1)

Thật ra, nếu mục tiêu là chỉ ra mối tương quan thì những đường ngang đó cũng không cần thiết, và biểu đồ có thể đơn giản hơn nữa:

Hình 11: Mối tương quan giữa hai biến số (biên tập lần 2)

Ngay cả những đường enclosed cũng không cần. Do đó, biểu đồ có thể cải tiến thành:

Hình 12: Mối tương quan giữa hai biến số (biên tập lần 3) 

Nói tóm lại, khi thiết kế biểu đồ, ngoài việc tối thiểu hoá chỉ số dối, tác giả cần phải tối đa hoá chỉ số dữ liệu trên lượng mực in. Để tối đa hoá chỉ số này, tác giả phải đặt câu hỏi “nếu tôi xoá bỏ những vết mực này, lượng thông tin có giảm không?” Nếu câu trả lời là không, thì tác giả có thể thẳng tay xoá bỏ những chỗ không cần thiết. Nên nhớ rằng dữ liệu là tín hiệu, và lượng mực không dùng cho dữ liệu là nhiễu; do đó, thiết kế biểu đồ chúng ta cần tối đa hoá lượng tín hiệu và tối thiểu hoá độ nhiễu.

(Còn tiếp …)