Chào các bạn, hôm nay tôi tình cờ đọc được một bài viết rất hay trên Medium về Machine Learning nên đã lược dịch lại và chia sẻ với các bạn.
Bạn đọc có thể tham khảo bài viết gốc tại đây.
Tôi, một cách thành thật, khá mệt mỏi khi nghe cuộc tranh luận này được nhắc đi nhắc lại trên phương tiện truyền thông xã hội và ngay trong trường đại học của tôi gần như hàng ngày.Thông thường, điều này được đi kèm với các tuyên bố hơi mơ hồ để giải thích vấn đề. Tôi nghĩ cả hai bên đều có phần sai. Tôi hy vọng rằng ở cuối bài viết, bạn sẽ có một cách hiểu tốt hơn về chủ đề mập mờ này.
Cuộc tranh luận
Trái với sự hiểu biết chung, Học máy (machine learning) đã có từ vài thập kỷ. Ban đầu nó bị xa lánh do yêu cầu tính toán lớn và những hạn chế của sức mạnh tính toán lúc đó.Tuy nhiên, học máy đã chứng kiến sự hồi sinh trong những năm gần đây do tính ưu việt của dữ liệu xuất phát từ vụ nổ thông tin (information explosion).
Do đó, nếu học máy và thống kê đồng nghĩa với nhau, tại sao chúng ta không thấy bộ môn thống kê trong mỗi trường đại học đóng cửa hoặc chuyển sang làm một bộ môn học máy? Vì chúng không giống nhau!
Có một số tuyên bố mơ hồ mà tôi thường nghe về chủ đề này, phổ biến nhất có lẽ là một cái gì đó tương tự như bên dưới:
Khác biệt chính giữa học máy và thống kê là mục đích của chúng. Các mô hình học máy được thiết kế để đưa ra dự đoán chính xác nhất có thể. Các mô hình thống kê được thiết kế để suy luận về mối quan hệ giữa các biến.
Trong khi điều này là đúng về mặt kỹ thuật, nó không đưa ra một câu trả lời đặc biệt rõ ràng hoặc làm cho thỏa mãn. Sự khác biệt lớn giữa học máy và thống kê đúng là mục đích giữa chúng.Tuy nhiên, nói rằng mọi thứ của học máy là về dự đoán chính xác trong khi mọi thứ về các mô hình thống kê là được thiết kế để suy luận gần như là một tuyên bố vô nghĩa trừ khi bạn thành thạo các khái niệm này.
Đầu tiên, chúng ta phải hiểu rằng các mô hình thống kê (statistical models) và thống kê (statistics) không giống nhau.Thống kê là sự nghiên cứu toán học của dữ liệu.Bạn không thể làm thống kê trừ khi bạn có dữ liệu. Mô hình thống kê là mô hình cho dữ liệu, được sử dụng để suy luận điều gì đó về các mối quan hệ trong dữ liệu, hoặc để dự đoán các giá trị trong tương lai. Hai điều này thường đi đôi với nhau.
Vì vậy, thực sự có hai điều chúng ta cần thảo luận: thứ nhất, thống kê khác với học máy như thế nào và thứ hai, các mô hình thống kê khác với học máy như thế nào.
Để làm cho điều này rõ ràng hơn một chút, có rất nhiều mô hình thống kê có thể đưa ra dự đoán, nhưng độ chính xác dự đoán không phải là điểm mạnh của chúng.
Tương tự như vậy, các mô hình học máy cung cấp nhiều mức độ diễn giải khác nhau, từ hồi quy lasso có thể giải thích được đến các mạng thần kinh (neural network) không thể giải thích, nhưng học máy thường hy sinh khả năng diễn giải cho khả năng dự đoán (they generally sacrifice interpretability for predictive power.)
Từ góc độ cấp cao, đây là một câu trả lời tốt. Đủ tốt cho hầu hết mọi người. Tuy nhiên, có những trường hợp giải thích này khiến chúng ta hiểu lầm về sự khác biệt giữa học máy và mô hình thống kê. Chúng ta hãy xem ví dụ về hồi quy tuyến tính.
Mô hình thống kê so với học máy - Một ví dụ so sánh cho hồi quy tuyến tính
Có lẽ sự giống nhau của các phương pháp được sử dụng trong mô hình thống kê và trong học máy đã khiến mọi người cho rằng chúng giống nhau. Điều này là dễ hiểu, nhưng không đúng.
Ví dụ rõ ràng nhất là trường hợp hồi quy tuyến tính, có lẽ là nguyên nhân chính của sự hiểu lầm này. Hồi quy tuyến tính là một phương pháp thống kê, chúng ta có thể huấn luyện một mô hình học máy cho hồi quy tuyến tính và thu được kết quả tương tự như mô hình hồi quy thống kê nhằm cực tiểu hoá sai số bình phương giữa các điểm dữ liệu.
Đối với học máy, chúng ta thực hiện một việc gọi là 'huấn luyện' mô hình (training the model), liên quan đến việc sử dụng một tập dữ liệu con (train set) và chúng ta không biết mô hình sẽ hoạt động tốt như thế nào cho đến khi chúng ta 'kiểm tra' mô hình này trên tập dữ liệu bổ sung không có mặt trong quá trình huấn luyện, được gọi là bộ kiểm tra (test set). Mục đích của học máy, trong trường hợp này, là để có được hiệu suất tốt nhất trên bộ kiểm tra.
Đối với mô hình thống kê, chúng ta đi tìm một đường thẳng có thể cực tiểu hoá sai số bình phương trung bình cho tất cả các điểm dữ liệu, với giả định dữ liệu là một hồi quy tuyến tính với một số nhiễu ngẫu nhiên được thêm vào, và có phân bố chuẩn Gaussian. Không có bộ huấn luyện và bộ kiểm tra. Đối với nhiều trường hợp, đặc biệt là trong nghiên cứu, điểm chính yếu của mô hình thống kê là đặc trưng hóa mối quan hệ giữa dữ liệu và biến kết quả, và không đưa ra dự đoán về dữ liệu trong tương lai. Chúng ta gọi thủ tục này là suy luận thống kê (statistical inference), trái ngược với dự đoán (prediction).Tuy nhiên, chúng ta vẫn có thể sử dụng mô hình này để đưa ra dự đoán và đây có thể là mục đích chính của nhiều người, nhưng cách đánh giá mô hình sẽ không liên quan đến bộ kiểm tra và thay vào đó sẽ liên quan đến việc đánh giá mức ý nghĩa và độ mạnh của các tham số mô hình (evaluating the significance and robustness of the model parameters).
Mục đích của học máy (có giám sát) là có được một mô hình có thể đưa ra dự đoán có tính lặp lại. Chúng ta thường không quan tâm liệu mô hình có thể hiểu được hay không, mặc dù cá nhân tôi luôn khuyên mọi người nên luôn luôn thử nghiệm để đảm bảo rằng các mô hình dự đoán có thể giải thích được. Mọi thứ về học máy là kết quả, nó giống như là làm việc trong một công ty nơi mà giá trị của bạn được đánh giá thông qua một đặc trưng duy nhất là hiệu suất công việc.Trong khi đó, mô hình thống kê liên quan nhiều hơn đến việc tìm kiếm mối quan hệ giữa các biến và tầm quan trọng của các mối quan hệ đó, đồng thời vẫn phục vụ cho việc dự đoán.
Để đưa ra một ví dụ cụ thể về sự khác biệt giữa hai thủ tục này, tôi sẽ đưa ra một ví dụ cá nhân. Ban ngày, tôi là một nhà khoa học môi trường và tôi làm việc chủ yếu với dữ liệu cảm biến. Nếu tôi đang cố chứng minh rằng một cảm biến có thể phản ứng với một loại kích thích nhất định (chẳng hạn như nồng độ của khí gas), thì tôi sẽ sử dụng mô hình thống kê để xác định xem tín hiệu đầu ra (response signal) có ý nghĩa thống kê hay không.Tôi sẽ cố gắng hiểu được mối quan hệ này và kiểm tra độ lặp lại (repeatability) của nó để tôi có thể mô tả chính xác phản ứng của cảm biến và thực hiện việc suy luận dựa trên dữ liệu này. Một số điều tôi có thể kiểm tra là liệu phản ứng trên thực tế có tuyến tính hay không, liệu phản ứng có thể được quy cho nồng độ khí gas và không phải là tiếng ồn ngẫu nhiên trong cảm biến, v.v.
Ngược lại, tôi cũng có thể nhận được một mảng gồm 20 cảm biến khác nhau và tôi có thể sử dụng điều này để thử và dự đoán phản ứng của một cảm biến hoàn toàn mới. Điều này có vẻ hơi lạ nếu bạn không biết nhiều về cảm biến, nhưng đây hiện là một lĩnh vực quan trọng của khoa học môi trường. Một mô hình với 20 biến khác nhau dự đoán kết quả của một cảm biến hoàn toàn mới thì hoàn toàn là một bài toán về dự đoán và tôi không hy vọng nó sẽ đặc biệt dễ hiểu. Mô hình này có thể sẽ là một cái gì đó bí mật hơn một chút giống như mạng thần kinh (neural network) do sự phi tuyến tính phát sinh từ động học hóa học (chemical kinetics) và mối quan hệ giữa các biến vật lý và nồng độ khí gas.
Tôi muốn mô hình có ý nghĩa, nhưng miễn là tôi có thể dự đoán chính xác, tôi cũng vui lắm rồi.
Nếu tôi đang cố gắng chứng minh mối quan hệ giữa các biến dữ liệu của mình với một mức độ có ý nghĩa thống kê để tôi có thể xuất bản nó trong một bài báo khoa học, tôi sẽ sử dụng mô hình thống kê chứ không phải học máy. Điều này là do tôi quan tâm nhiều hơn đến mối quan hệ giữa các biến trái ngược với việc đưa ra dự đoán. Việc đưa ra dự đoán có thể vẫn quan trọng, nhưng sự thiếu khả năng diễn giải của hầu hết các thuật toán học máy khiến việc chứng minh mối quan hệ trong dữ liệu trở nên khó khăn (đây thực sự là một vấn đề lớn trong nghiên cứu học thuật, khi các nhà nghiên cứu sử dụng thuật toán mà họ không hiểu và không đạt được sự suy luận hợp lý).
Cần phải chỉ ra rõ rằng hai cách tiếp cận này là khác nhau về mục tiêu, mặc dù chúng sử dụng các phương tiện giống nhau để đạt được điều đó. Đánh giá thuật toán học máy là sử dụng một bộ kiểm tra để xác nhận độ chính xác của nó.Trong khi đó, đối với một mô hình thống kê, phân tích các tham số hồi quy thông qua các khoảng tin cậy, các thử nghiệm ý nghĩa thống kê và các thử nghiệm khác có thể được sử dụng để đánh giá tính hợp pháp của mô hình.Vì các phương thức này tạo ra cùng một kết quả, nên dễ hiểu tại sao người ta có thể cho rằng chúng giống nhau.
Thống kê so với học máy - Ví dụ về hồi quy tuyến tính
Tôi nghĩ rằng sự hiểu nhầm giữa hai khái niệm có thể được gói gọn trong một hình ảnh thử thách 10 năm có vẻ dí dỏm như bên dưới khi so sánh giữa thống kê và học máy.
Tuy nhiên, việc kết hợp hai thuật ngữ này chỉ dựa trên thực tế là cả hai đều sử dụng các khái niệm cơ bản giống nhau về xác suất là không chính đáng. Ví dụ: nếu chúng ta đưa ra tuyên bố rằng học máy chỉ đơn giản là thống kê được nâng cấp, chúng ta cũng có thể đưa ra các tuyên bố sau.
Vật lý là phiên bản nâng cấp của toán học.
Động vật học là phiên bản nâng cấp của sưu tầm tem.
Kiến trúc là phiên bản nâng cấp của việc xây lâu đài cát.
Những sự so sánh này rõ ràng là khá lố bịch, giúp bạn hiểu được học máy và thống kê khác nhau như thế nào.Trong thực tế, vật lý được xây dựng dựa trên toán học, nó là ứng dụng của toán học để hiểu các hiện tượng vật lý có trong thực tế. Vật lý cũng bao gồm các khía cạnh của thống kê và hình thức thống kê hiện đại thường được xây dựng từ một khung bao gồm lý thuyết tập hợp Zermelo-Frankel kết hợp với lý thuyết đo lường để tạo ra các không gian xác suất (probability space). Cả hai đều có nhiều điểm chung vì chúng đến từ một nguồn gốc tương tự và áp dụng những ý tưởng tương tự để đi đến kết luận hợp lý. Tương tự, kiến trúc và việc xây lâu đài cát có thể có nhiều điểm chung - mặc dù tôi không phải là kiến trúc sư nên tôi không thể đưa ra lời giải thích có thể dễ hiểu - nhưng rõ ràng chúng không giống nhau.
Để giúp cho bạn hiểu được phạm vi của cuộc tranh luận này kéo dài bao xa, đã từng có một bài báo được xuất bản trong tạp chí Natural Methods trong đó nêu rõ sự khác biệt giữa thống kê và học máy. Việc này có vẻ buồn cười khi tạp chí danh tiếng lại có một bài như vậy, nhưng càng buồn hơn khi mức độ thảo luận này là cần thiết.
Trước khi đi tiếp, tôi sẽ nhanh chóng làm rõ hai quan niệm sai lầm phổ biến khác có liên quan đến học máy và thống kê. Đó là AI (Artificial Intelligence, Trí tuệ nhân tạo) thì khác với học máy và khoa học dữ liệu (data science) thì khác với thống kê.
Khoa học dữ liệu về cơ bản là các phương pháp tính toán và phương pháp thống kê được áp dụng cho dữ liệu, đây có thể là các tập dữ liệu nhỏ hoặc lớn. Điều này cũng có thể bao gồm những thứ như phân tích dữ liệu khám phá (exploratory data analysis), trong đó dữ liệu được kiểm tra và trực quan hóa để giúp nhà khoa học hiểu dữ liệu tốt hơn và suy luận từ đó. Khoa học dữ liệu cũng bao gồm những thứ như sắp xếp dữ liệu và tiền xử lý dữ liệu (preprocessing data), và do đó liên quan đến một số cấp độ khoa học máy tính vì nó liên quan đến mã hóa, thiết lập kết nối giữa đường ống dữ liệu và cơ sở dữ liệu, máy chủ web, v.v.
Bạn không nhất thiết phải sử dụng máy tính để làm thống kê, nhưng bạn thực sự không thể làm khoa học dữ liệu mà không có máy tính. Bạn có thể một lần nữa thấy rằng mặc dù khoa học dữ liệu sử dụng thống kê, nhưng rõ ràng chúng không giống nhau.
Tương tự, học máy không giống như trí tuệ nhân tạo. Trên thực tế, học máy là một tập con của AI. Điều này khá rõ ràng vì chúng ta đang dạy (huấn luyện) một cỗ máy để đưa ra những suy luận khái quát (generalizable inferences) về một số loại dữ liệu dựa trên dữ liệu trước đó.
Học máy được xây dựng dựa trên Thống kê
Trước khi đề cập về sự khác biệt giữa thống kê và học máy, trước tiên chúng ta hãy thảo luận về những điểm tương đồng.
Học máy được xây dựng dựa trên khung thống kê. Điều này nên được làm rõ vì học máy liên quan đến dữ liệu và dữ liệu phải được mô tả bằng khung thống kê. Tuy nhiên, nó cũng giống như cơ học thống kê (statistical mechanics), được mở rộng thành nhiệt động lực học cho số lượng lớn các hạt, vốn cũng được xây dựng dựa trên khung thống kê. Khái niệm áp suất thực sự là một thống kê, và nhiệt độ cũng là một thống kê. Bạn có thể nghĩ rằng điều này nghe có vẻ ngớ ngẩn, nhưng nó thực sự đúng.Đây là lý do tại sao bạn không thể mô tả nhiệt độ hoặc áp suất của một phân tử, điều này là vô nghĩa. Nhiệt độ là biểu hiện của năng lượng trung bình được tạo ra bởi các va chạm phân tử. Đối với một lượng phân tử đủ lớn, chúng ta có thể mô tả nhiệt độ của một cái gì đó như một ngôi nhà hoặc ngoài trời.
Bạn có cho rằng nhiệt động lực học và thống kê là như nhau? Không, nhiệt động lực học sử dụng số liệu thống kê để giúp chúng ta hiểu được sự tương tác của chuyển động và nhiệt dưới dạng hiện tượng chuyển hoá.
Trong thực tế, nhiệt động lực học được xây dựng dựa trên nhiều lĩnh vực khác ngoài thống kê.Tương tự, học máy dựa trên một số lượng lớn các lĩnh vực khác của toán học và khoa học máy tính, ví dụ:
- Lý thuyết học máy đến từ các lĩnh vực như toán học & thống kê
- Thuật toán học máy đến từ các lĩnh vực như tối ưu hóa, đại số ma trận, tích phân.
- Triển khai học máy đến từ các khái niệm khoa học & kỹ thuật máy tính (ví dụ: thủ thuật kernel, băm tính năng)
Khi một người bắt đầu lập trình trên Python và sử dụng thư viện sklearn cho các thuật toán, rất nhiều khái niệm này đã được trừu tượng hóa nên rất khó để thấy những khác biệt. Trong trường hợp này, sự trừu tượng đã dẫn đến một dạng thiếu hiểu biết đến những gì học máy thực sự liên quan.
Lý thuyết học thống kê - Cơ sở thống kê của học máy
Sự khác biệt chính giữa thống kê và học máy là thống kê chỉ dựa trên không gian xác suất. Bạn có thể biểu diễn toàn bộ thống kê từ lý thuyết tập hợp, cái thảo luận về cách chúng ta có thể nhóm số thành các loại, được gọi là các tập hợp (set) và sau đó áp dụng một cách đo lường cho tập hợp này để đảm bảo rằng giá trị tổng của tất cả các tập hợp này là 1. Chúng ta gọi đây là không gian xác suất.
Thống kê không có giả định nào khác về vũ trụ ngoại trừ các khái niệm về tập hợp (set) và các cách đo lường này. Một không gian xác suất, mà chúng ta biểu diễn là \left ( \Omega , F, P \right ) bao gồm 3 thành phần:
- Một không gian mẫu, \Omega , là tập hợp của tất cả các kết quả có thể xảy ra.
- Một tập hợp các sự kiện, F, trong đó mỗi sự kiện là một tập hợp chứa 0 hoặc nhiều kết quả.
- Việc gán xác suất cho các sự kiện, P; đó là, một hàm số từ sự kiện đến xác suất.
Học máy dựa trên lý thuyết học thống kê, vốn vẫn dựa trên khái niệm tiên đề về không gian xác suất. Lý thuyết này được phát triển vào những năm 1960 và mở rộng dựa trên thống kê học truyền thống.
Có một số loại học máy khác nhau, nhưng tôi sẽ chỉ tập trung vào học có giám sát ở đây vì nó dễ giải thích nhất (mặc dù vẫn hơi bí truyền vì nó bị chôn vùi trong toán học).
Lý thuyết học thống kê cho việc học có giám sát cho biết rằng chúng ta có một bộ dữ liệu, biểu thị là S = \left \{ \left ( x_{i},y_{i}\right ) \right \}^{n} .Về cơ bản điều này nói rằng chúng ta có một tập dữ liệu gồm n điểm, mỗi điểm được mô tả bởi một số giá trị khác mà chúng ta gọi là các đặc trưng (features), được cung cấp bởi x và các đặc trưng này được ánh xạ bởi một hàm nhất định để cung cấp cho chúng ta giá trị y. Nó cho biết rằng chúng ta có bộ dữ liệu này và mục tiêu của chúng ta là tìm hàm số để ánh xạ các giá trị x thành các giá trị y. Chúng ta gọi tập hợp tất cả các hàm khả dĩ có thể mô tả ánh xạ này là không gian hàm (hypothesis space hoặc function space).
Để tìm ra hàm số ánh xạ này, chúng ta phải cung cấp cho thuật toán một số cách thức tốt nhất để tiếp cận vấn đề. Cách thức này là hàm mất mát (loss function). Đối với mỗi giả thuyết (hàm ánh xạ được đề xuất) mà chúng ta có, chúng ta cần đánh giá hiệu suất hàm đó bằng cách xem xét giá trị rủi ro dự kiến của nó trên toàn bộ dữ liệu.
Rủi ro dự kiến về cơ bản là tổng của hàm mất mát nhân với phân phối xác suất của dữ liệu. Nếu biết phân phối xác suất chung của ánh xạ, sẽ dễ dàng tìm thấy hàm tốt nhất.Tuy nhiên, điều này nói chung không được biết đến, và do đó đặt cược tốt nhất là đoán hàm ánh xạ tốt nhất và sau đó quyết định theo kinh nghiệm xem hàm mất mát có tốt hơn hay không. Chúng ta gọi đây là rủi ro thực nghiệm.
Sau đó, chúng ta có thể so sánh các hàm khác nhau và tìm kiếm giả thuyết mang lại cho chúng ta rủi ro dự kiến tối thiểu, đó là giả thuyết mang lại giá trị mất mát tối thiểu (được gọi là tối ưu) của tất cả các giả thuyết trên dữ liệu.
Tuy nhiên, thuật toán có xu hướng gian lận để giảm thiểu hàm mất mát bằng cách cung cấp quá nhiều dữ liệu (hay quá khớp, overfitting). Đó là lý do tại sao sau khi một hàm học xong dựa trên dữ liệu của tập huấn luyện (train set), hàm đó được xác nhận trên tập dữ liệu kiểm tra (test set), dữ liệu mà không xuất hiện trong tập huấn luyện.
Bản chất của cách chúng ta định nghĩa học máy đã đưa ra vấn đề về quá khớp (overfitting) và sự cần thiết phải có một bộ huấn luyện và kiểm tra khi thực hiện học máy. Đây không phải là một tính năng vốn có của thống kê vì chúng ta không cố gắng giảm thiểu rủi ro theo kinh nghiệm.
Một thuật toán học tập chọn hàm giảm thiểu rủi ro theo kinh nghiệm được gọi là cực tiểu hoá rủi ro theo kinh nghiệm (empirical risk minimization)
Ví dụ
Lấy trường hợp đơn giản của hồi quy tuyến tính. Theo cách hiểu truyền thống, chúng ta cố gắng cực tiểu hoá sai số giữa một số điểm dữ liệu để tìm một hàm ánh xạ tối ưu. Trong trường hợp này, chúng ta thường sử dụng sai số bình phương trung bình (mean squared error). Chúng ta bình phương nó để các sai số dương và sai số âm không triệt tiêu lẫn nhau. Sau đó chúng ta có thể giải các hệ số hồi quy theo thuật toán khép kín.
Do đó, nếu chúng ta coi hàm mất mát là sai số bình phương trung bình và thực hiện cực tiểu hoá rủi ro theo kinh nghiệm theo lý thuyết học thống kê, chúng ta sẽ có kết quả tương tự như phân tích hồi quy tuyến tính truyền thống.
Điều này chỉ là do hai trường hợp này tương đương nhau, theo cùng một cách mà việc thực hiện hợp lý cực đại (maximum likelihood) trên cùng một dữ liệu này cũng sẽ cho bạn kết quả tương tự. Hợp lý cực đại có một cách khác để đạt được cùng một mục tiêu này, nhưng sẽ không ai tranh luận và nói rằng hợp lý cực đại giống như hồi quy tuyến tính.Trường hợp đơn giản nhất rõ ràng không giúp phân biệt các phương pháp này.
Một điểm quan trọng khác là trong các phương pháp thống kê truyền thống, không có khái niệm về tập huấn luyện và kiểm tra, nhưng chúng ta sử dụng các hệ thống đo lường (metrics) để kiểm tra hiệu suất của mô hình. Vì vậy, quy trình đánh giá là khác nhau nhưng cả hai phương pháp đều có thể cho chúng ta kết quả mạnh mẽ về mặt thống kê.
Một điểm nữa là cách tiếp cận thống kê truyền thống đã cho chúng ta giải pháp tối ưu vì giải pháp này có dạng kín. Nó đã không kiểm tra bất kỳ giả thuyết nào khác và hội tụ vào một giải pháp. Trong khi đó, phương pháp học máy thử nghiệm một loạt các mô hình khác nhau (thử nghiệm nhiều hàm ánh xạ khác nhau ở trong không gian hàm) và hội tụ đến giả thuyết cuối cùng, phù hợp với kết quả thuật toán hồi quy.
Nếu chúng ta sử dụng một hàm mất mát khác, kết quả sẽ không hội tụ. Ví dụ, nếu chúng ta sử dụng hàm hinge loss (mất mát bản lề) thay vì dùng gradient descent thì kết quả sẽ không giống nhau.
Một so sánh cuối cùng có thể được thực hiện bằng cách xem xét độ thiên vị (bias, hay còn gọi là độ lệch) của mô hình. Người ta có thể yêu cầu thuật toán học máy kiểm tra các mô hình tuyến tính, cũng như các mô hình đa thức, mô hình hàm mũ, v.v., để xem liệu các giả thuyết này có phù hợp với dữ liệu hơn khi so sánh với hàm mất mát tiên nghiệm hay không. Điều này giống như tăng không gian giả thuyết có liên quan. Còn trong thống kê học truyền thống, chúng ta chọn một mô hình và có thể đánh giá độ chính xác của nó, nhưng không thể tự động làm cho nó chọn mô hình tốt nhất từ 100 mô hình khác nhau. Rõ ràng, luôn có một số thiên vị (bias) trong mô hình bắt nguồn từ sự lựa chọn ban đầu của thuật toán. Điều này là cần thiết vì việc tìm một hàm ánh xạ tối ưu cho tập dữ liệu là bài toán đa thức bất định (NP-hard problem).
Cái nào tốt hơn? Thống kê hay học máy?
Đây thực sự là một câu hỏi ngớ ngẩn. Học máy sẽ không tồn tại nếu không có thống kê, nhưng học máy khá hữu ích trong kỷ nguyên hiện đại do sự phong phú của dữ liệu mà nhân loại có thể truy cập kể từ vụ nổ thông tin.
So sánh học máy với mô hình thống kê thì khó hơn một chút. Tuỳ vào việc mục đích chính của bạn là gì. Nếu bạn chỉ muốn tạo ra một thuật toán có thể dự đoán giá nhà ở với độ chính xác cao hoặc sử dụng dữ liệu để xác định xem ai đó có khả năng mắc một số loại bệnh nhất định hay không, thì học máy có thể là phương pháp tốt hơn. Nếu bạn đang cố gắng chứng minh mối quan hệ giữa các biến hoặc muốn suy luận từ dữ liệu, một mô hình thống kê có thể là cách tiếp cận tốt hơn.
Nếu bạn không có kiến thức cơ bản về thống kê, bạn vẫn có thể nghiên cứu về học máy và sử dụng nó, sự trừu tượng được cung cấp bởi các thư viện học máy giúp bạn dễ dàng sử dụng chúng như một người không chuyên, nhưng bạn vẫn cần hiểu biết về các ý tưởng thống kê cơ bản để ngăn chặn các mô hình quá khớp và đưa ra các suy luận cụ thể.
Bài viết bạn có thể quan tâm
About Author

I’m Viet, the founder of this website with 8+ years experience in data analytics. My sharing is focus on data, which specialise on both Analytics and Business Intelligence platform as well as Data Science and Machine Learning platform.