Nguồn tài nguyên giá trị nhất của thế giới hiện nay không còn là dầu mỏ, mà là kho dữ liệu số đang tăng lên với cấp độ lũy thừa mỗi ngày. Trong cuộc cách mạng công nghiệp 4.0, Big Data là một yếu tố đóng vai trò then chốt. Vậy Big Data thực chất là gì, và nó đang được ứng dụng như thế nào? Đối với nhiều người, đó là một thuật ngữ mơ hồ về hình ảnh của những hệ thống máy chủ khổng lồ, hoặc sẽ liên hệ đến việc nhận được các loại quảng cáo từ một nhà bán lẻ.

Xem thêm: Công nghệ Big Data và xu hướng ứng dụng
Như vậy chúng ta đã cùng nhau đi qua 4 phần của series bài viết về thuật toán Decision trees hay còn gọi là thuật toán cây quyết định. Chúng ta đã làm quen với định nghĩa tổng quát, các dạng cây quyết định bao gồm phân 2 nhánh – CART, và nhiều nhánh C4.5 sử dụng các công thức Goodness of Split, Gini Index, Entropy kết hợp với Information Gain, hay Gain Ratio để xây dựng mô hình áp dụng cho biến mục tiêu là biến định tính, và chúng ta cũng tiếp cận qua một số cách thức để tăng độ hiệu quả của mô hình, tránh trường hợp Overfitting hay Underfitting như Stopping rule và Pruning method, và nhìn lại những ưu điểm, khuyết điểm một cách tổng thể về Decision Trees.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.5) REGRESSION TREE VÀ DECISION RULES