Menu

12. Những điều cơ bản về báo chí dữ liệu

Giống như xác minh dữ kiện, báo chí dữ liệu là một trong những phương pháp đã xuất hiện khi các tòa soạn báo trực tuyến phát triển từ giữa những năm 2000. Nó có thể khai thác sự phong phú của dữ liệu hiện có sẵn trực tuyến trên tất cả các chủ đề.

Sơ lược về lịch sử báo chí dữ liệu

Mặc dù đã có rất nhiều thảo luận về báo chí dữ liệu trong khoảng mười năm trở lại đây, nhưng nó không phải là một điều thực tế mới. Những ví dụ lâu đời nhất về nó có từ giữa thế kỷ 19. Nhà báo kiêm y tá Florence Nightingale đã công bố dữ liệu tử vong của binh lính Anh trong Chiến tranh Krym năm 1858.

Điều đã thay đổi kể từ đó là sự ra đời của máy tính và dân chủ hóa dữ liệu công cộng. Mỗi nhà báo đều có trong tay một công cụ cho phép họ thực hiện các phép tính và tìm kiếm một cách rất hiệu quả và xử lý một lượng dữ liệu vô cùng khổng lồ. Tất cả những gì còn lại cần làm là chú tâm vào nó (tất nhiên là như vậy).

Dữ liệu là gì?

Thông thường, khi nói đến báo chí dữ liệu, người ta nghĩ ngay đến tỷ lệ thất nghiệp. Và đó là điều bình thường, có lẽ đó là biểu đồ thường thấy trên báo chí. Tuy nhiên, cần lưu ý rằng dữ liệu và số liệu thống kê không giống nhau. Ví dụ, tỷ lệ thất nghiệp ở Anh được lấy từ dữ liệu Jobcentre Plus, sau đó được các nhà thống kê ONS tính toán lại bằng các công thức cụ thể.

Một phần dữ liệu là một phần chính xác, duy nhất, được xác định. Có bốn loại dữ liệu:

  • dữ liệu có thể là văn bản: tên họ của bạn là một dữ liệu
  • dữ liệu có thể là một con số: tuổi của bạn là một dữ liệu
  • dữ liệu có thể là đúng hoặc sai, trong kinh doanh được gọi là kiểu dữ liệu Boolean: bạn có phải là người Anh không? Phải? Không? Câu trả lời là một dữ liệu.
  • dữ liệu có thể là một nhóm của một vài phần dữ liệu khác, được gọi là một mảng: “Clive, 18, No” là một mảng chứa các phần dữ liệu văn bản, dữ liệu số và dữ liệu Boolean.

Bảng tính và bảng tổng hợp

Ngoài lý thuyết, trên hết báo chí dữ liệu sử dụng một phần mềm mà bạn chắc chắn biết, nhưng điều này thường đáng sợ: Excel (hoặc bất kỳ loại phần mềm bảng tính nào khác). Excel là công cụ rất tuyệt vời dành cho báo chí dữ liệu. Nếu bạn học cách sử dụng nó một chút, nó sẽ cho phép bạn thực hiện các phép tính rất phức tạp một cách dễ dàng, tính trung bình, đếm số lần xuất hiện, tìm kiếm các phần nhất định của văn bản, v.v.

Nếu bạn nghiên cứu sâu hơn một chút về chủ đề này, bạn có thể đi vào bảng tổng hợp (chúng tôi đảm báo nó không phức tạp lắm). Sử dụng công cụ này, bạn sẽ có thể phân loại cơ sở dữ liệu khổng lồ gồm hàng nghìn hàng và cột, và cắt theo tài liệu cốt lõi sẽ giúp ích cho việc điều tra của bạn.

Và nếu bạn thực sự muốn tiến xa hơn một chút, OpenRefine sẽ là đồng minh của bạn. Sử dụng công cụ này, bạn sẽ có thể xử lý hàng triệu ô trong nháy mắt.