Dữ liệu lớn khiến phương pháp khoa học trở nên lỗi thời

"Tất cả các mô hình đều sai, nhưng một số thì có ích."

Đó là phát biểu nổi tiếng của nhà thống kê Geogre Box  30 năm trước, và ông ấy đã đúng. Nhưng chúng ta đã từng có được những sự lựa chọn nào? Không nhiều, tất cả đều là mô hình (models), từ các phương trình vũ trụ đến các lý thuyết về hành vi con người, dường như có thể nhất quán, mặc dù có thể không hoàn hảo, giải thích mọi thứ của thế giới xung quanh chúng ta. Cho đến tận bây giờ.

Ngày nay, những công ty như Google đang phát triển trong kỷ nguyên tràn ngập dữ liệu, không phải lo lắng về việc thiết lập những mô hình xấu nữa (wrong models). Thực sự bài toán của họ không còn là xây dựng những model nữa.

Cách đây 60 năm, những máy tính kỹ thuật số đã làm cho thông tin có thể đọc được. 20 năm trước, mọi người đã có thể tiếp cận được Internet. 10 năm trước, các công cụ cào dữ liệu đã biến nó thành một cơ sở dữ liệu lớn. Ngày nay, Google và những công ty cùng chí hướng đang đi qua một giai đoạn được đo lường nhiều nhất trong lịch sử. Họ chính là những đứa trẻ được tạo ra bởi kỷ nguyên Petabyte ( 1 Petabyte = 2^{50}byte)

Kỷ nguyên Petabyte là kỷ nguyên khác biệt. Kilobytes được lưu trữ trên đĩa mềm. Megabyte được lưu trữ trên đĩa cứng. Terabyte được lưu trữ trong mảng đĩa. Petabyte được lưu trữ trong đám mây. Khi chúng ta đi theo một tiến trình như vậy, nó như tương đương với việc đi từ một tệp tin (kilobytes) tới một thư mục (megabytes) tới một thư viện (terabyte), và với petabyte thì chúng ta không có một sự so sánh tương ứng.

Với kỉ nguyên Petabyte, thông tin không còn là một vấn đề phân loại và sắp xếp giản đơn theo một không gian 3 chiều hoặc 4 chiều mà là sự thống kê bất khả tri nhiều chiều. Nó đòi hỏi một cách tiếp cận hoàn toàn khác, một cách đòi hỏi chúng ta phải mất đi sự ràng buộc của dữ liệu như một thứ có thể được hình dung trong tổng thể. Nó buộc chúng ta phải xem dữ liệu trước tiên về mặt toán học và thiết lập bối cảnh cho nó sau đó. Chẳng hạn, Google đã chinh phục thế giới quảng cáo chỉ với toán học ứng dụng. Nó không thật sự biết bất cứ điều gì về văn hóa và quy ước của quảng cáo - nó chỉ giả định rằng với dữ liệu tốt hơn, với các công cụ phân tích tốt hơn, nó sẽ giành chiến thắng trong cuộc chơi. Và Google đã đúng.

Triết lý sáng lập của Google là chúng tôi không biết tại sao trang này tốt hơn trang kia. Nếu số liệu thống kê của các liên kết đến giúp chúng tôi chỉ ra trang nào được điểm cao hơn, điều đó là đủ tốt rồi. Không có phân tích ngữ nghĩa hoặc nguyên nhân được yêu cầu. Đó là lý do tại sao Google có thể dịch các ngôn ngữ mà không thực sự "biết" chúng (nếu được cung cấp lượng dữ liệu bằng nhau, Google có thể dịch tiếng Klingon (trong phim Star Trek) sang tiếng Farsi dễ dàng như có thể dịch từ tiếng Pháp sang tiếng Đức). Và đó là lý do tại sao mà nó có thể khớp quảng cáo với nội dung mà không cần có bất kỳ kiến ​​thức hoặc giả định nào về quảng cáo hoặc nội dung.

Phát biểu tại Hội nghị Công nghệ Mới nổi O'Reilly vào tháng 3 vừa qua, Peter Norvig, giám đốc nghiên cứu của Google, đã đưa ra một bản cập nhật cho câu châm ngôn của George Box: "Tất cả các mô hình đều sai và càng ngày bạn càng có thể thành công mà không cần đến chúng." ( "All models are wrong, and increasingly you can succeed without them.")

Đây là một thế giới nơi một lượng lớn dữ liệu và toán học ứng dụng có thể thay thế mọi công cụ khác. Nó thay thế mọi lý thuyết về hành vi của con người, từ ngôn ngữ học đến xã hội học. Quên phân loại, bản thể học và tâm lý học đi. Ai mà biết tại sao mọi người làm những gì họ làm cơ chứ? Vấn đề là họ làm điều đó, và chúng ta có thể theo dõi và đo lường nó với độ trung thực chưa từng có. Với đủ dữ liệu, những con số nói lên chính nó. (With enough data, the numbers speak for themselves.)

Mục tiêu lớn ở đây không phải là cho ngành quảng cáo. Đó là khoa học. Phương pháp khoa học được xây dựng xung quanh các giả thuyết có thể kiểm chứng được. Những mô hình giả thuyết này, phần lớn, là các hệ thống được trực quan hoá trong tâm trí của các nhà khoa học. Các mô hình sau đó được kiểm tra và các thử nghiệm để xác nhận hoặc không xác nhận các mô hình lý thuyết về cách thế giới hoạt động. Đây là cách khoa học đã làm việc trong hàng trăm năm.

Các nhà khoa học được đào tạo để nhận ra rằng mối tương quan (correlation) không phải là nguyên nhân (causation), rằng không nên đưa ra kết luận đơn giản dựa trên mối tương quan giữa X và Y (nó chỉ có thể là sự trùng hợp).Thay vào đó, bạn phải hiểu các cơ chế cơ bản (underlying mechanism) kết nối cả hai. Khi bạn có một mô hình, bạn có thể tự tin kết nối các bộ dữ liệu. Dữ liệu không có mô hình chỉ là nhiễu.

Nhưng khi phải đối mặt với dữ liệu lớn, cách tiếp cận khoa học này - đặt giả thuyết, xây dựng mô hình, tiến hành thử nghiệm - đang trở nên lỗi thời. Thử nhìn qua ngành vật lý: các mô hình Newton là xấp xỉ thô của sự thật (sai ở cấp độ nguyên tử, nhưng vẫn hữu ích). Một trăm năm trước, cơ học lượng tử dựa trên thống kê đã đưa ra một bức tranh tốt hơn - nhưng cơ học lượng tử lại là một mô hình khác, và do đó, cũng chứa đầy sai sót, như là một bức tranh biếm họa về một thực tại tiềm ẩn phức tạp hơn. Lý do vật lý đã rơi vào suy đoán lý thuyết về các mô hình thống nhất n chiều trong vài thập kỷ qua (giai đoạn "câu chuyện đẹp" của một môn học bị bỏ đói dữ liệu - *** tác giả bài viết có ý châm biếm vì đó là thời gian ngành vật lý rơi vào bế tắc) là chúng ta không biết cách thực hiện các thí nghiệm làm sai lệch giả thuyết rỗng - bởi vì nó đòi hỏi chi phí quá cao, máy gia tốc quá đắt tiền, vân vân.

Bây giờ ngành sinh học đang đi theo cùng một hướng.Các mô hình mà chúng ta được dạy ở trường về các gen "trội" và "lặn" được kiểm soát bởi một quy trình Mendel nghiêm ngặt hóa ra lại là một sự đơn giản hóa thực tế thậm chí còn lớn hơn cả định luật của Newton.Việc phát hiện ra các tương tác gen-protein và các khía cạnh khác của biểu sinh học (epigenetics) đã thách thức quan điểm cho rằng DNA là định mệnh (destiny - *** tức là không thể thay đổi được) và thậm chí đưa ra bằng chứng cho thấy môi trường có thể ảnh hưởng đến các đặc điểm di truyền (inheritable traits), một thứ từng được coi là không thể di truyền.

Nói tóm lại, chúng ta càng hiểu về sinh học bao nhiêu, chúng ta càng thấy mình xa vời với việc có một mô hình có thể giải thích được nó.

Bây giờ có một cách tốt hơn. Petabyte cho phép chúng ta nói: "Tương quan là đủ tốt". Chúng ta có thể ngừng tìm kiếm các mô hình. Chúng ta có thể phân tích dữ liệu mà không cần giả thuyết về những gì nó có thể hiển thị. Chúng ta chỉ cần ném các con số vào các cụm máy tính lớn nhất mà thế giới từng thấy và để cho các thuật toán thống kê tìm ra các mẫu chung (patterns) mà khoa học không thể tìm ra được.

Ví dụ thực tế tốt nhất về điều này là trình tự gen shotgun (shotgun gene sequencing) của J. Craig Venter. Được giúp sức bởi các trình sắp xếp tốc độ cao (high-speed sequencers) và siêu máy tính phân tích thống kê, Venter đã đi từ giải trình tự các sinh vật riêng lẻ đến giải trình tự toàn bộ hệ sinh thái (sequencing individual organisms to sequencing entire ecosystems). Năm 2003, ông bắt đầu xâu chuỗi phần lớn đại dương, tìm lại hành trình của Thuyền trưởng Cook. Và năm 2005 ông bắt đầu xâu chuỗi không khí. Trong quá trình đó, ông đã phát hiện ra hàng ngàn loài vi khuẩn chưa được biết đến trước đây và các dạng sống khác.

Nếu những từ "khám phá một loài mới" gợi bạn nhớ đến Darwin và những bức vẽ về loài chim sẻ, bạn có thể bị mắc kẹt trong cách làm khoa học cũ. Venter hầu như không thể nói cho bạn biết bất cứ điều gì về loài mới mà ông ta tìm thấy. Ông không biết chúng trông như thế nào, chúng sống ra sao, hay bất cứ điều gì khác về hình thái của các loài mới tìm thấy này. Ông thậm chí không có toàn bộ bộ gen của chúng. Tất cả những gì ông ta có là một đốm thống kê (statistical blip) - nếu đó một chuỗi duy nhất (a unique sequence), không giống với bất kỳ chuỗi nào khác trong cơ sở dữ liệu, thì phải đại diện cho một loài mới (a unique sequence that, being unlike any other sequence in the database, must represent a new species.)

Trình tự gen này có thể tương quan với các trình tự gen khác giống với các loài mà chúng ta biết nhiều hơn.Trong trường hợp này, Venter có thể đưa ra một số dự đoán về các loài động vật - rằng chúng chuyển đổi ánh sáng mặt trời thành năng lượng theo một cách riêng hoặc chúng có nguồn gốc từ một tổ tiên chung. Nhưng bên cạnh đó, ông ta không có mô hình nào về loài này tốt hơn là Google có trang MySpace của bạn. (***My Space là một mạng xã hội giống Facebook đầu thập niên 2000).Tât cả chỉ là dữ liệu. Tuy nhiên, bằng cách phân tích nó với các tài nguyên điện toán chất lượng của Google, Venter đã đưa ngành sinh học tiến xa hơn bất kỳ một ai khác trong thế hệ của mình.

Học cách sử dụng "máy tính" ở thang đo này có thể là một thách thức. Nhưng cơ hội là rất lớn: Sự sẵn có mới của một lượng dữ liệu khổng lồ, cùng với các công cụ thống kê để xử lý những con số này, đang mang đến một cách hiểu hoàn toàn mới về thế giới. Tương quan thay thế quan hệ nhân quả, và khoa học có thể tiến lên ngay cả khi không có mô hình mạch lạc, lý thuyết thống nhất hoặc có bất kỳ lời giải thích cơ học nào cả.

Không có lý do gì để bám vào những cách cũ. Đã đến lúc đặt câu hỏi: Khoa học có thể học được gì từ Google?

Đọc bài viết gốc tại đây. Bài viết này có từ năm 2008, 12 năm trước - khi mà Big Data hay Data Science còn chưa được nói tới đủ để cho ta thấy được khả năng tiên đoán rất tốt của tác giả.

About Author

Chia sẻ bài viết

1 thought on “Dữ liệu lớn khiến phương pháp khoa học trở nên lỗi thời”

Leave a Comment

Your email address will not be published. Required fields are marked *