TTCT - College Board, tổ chức phi lợi nhuận đang phụ trách kỳ thi SAT, đã bán mỗi cái tên thí sinh kèm theo các thông tin liên quan với giá 47 cent (khoảng 11.000 đồng), gây ra những tranh cãi dữ dội về tuyển sinh đại học ở Mỹ.
Phân tích dữ liệu dự đoán đang nhanh chóng trở thành động lực thúc đẩy tiếp thị hiện đại. Phân tích dữ liệu dự đoán là quá trình sử dụng dữ liệu lịch sử và hiện tại kết hợp với học máy để dự báo một số kết quả nhất định.

Xem thêm: 6 cách phân tích dữ liệu dự đoán đang định hình lại marketing
Nguồn tài nguyên giá trị nhất của thế giới hiện nay không còn là dầu mỏ, mà là kho dữ liệu số đang tăng lên với cấp độ lũy thừa mỗi ngày. Trong cuộc cách mạng công nghiệp 4.0, Big Data là một yếu tố đóng vai trò then chốt. Vậy Big Data thực chất là gì, và nó đang được ứng dụng như thế nào? Đối với nhiều người, đó là một thuật ngữ mơ hồ về hình ảnh của những hệ thống máy chủ khổng lồ, hoặc sẽ liên hệ đến việc nhận được các loại quảng cáo từ một nhà bán lẻ.

Xem thêm: Công nghệ Big Data và xu hướng ứng dụng
Bộ dữ liệu này sẽ có ích cho các bạn xây dựng app và website tra cứu bài hát karaoke, tra cứu tác giả, tra cứu theo đầu hoặc đĩa karaoke...
* Mã số Karaoke Việt Nam Arirang 5 số, California 6 số, MusicCore, Sơn Ca Media và Việt KTV bao gồm cả tiếng Việt và tiếng Anh.
* Đầu karaoke Arirang cập nhật đến vol 64 mới nhất.
* Đầu karaoke MusicCore cập nhật đến vol 93 mới nhất.
* Đầu karaoke Sơn Ca Media (ACNOS) cập nhật đến vol 58 mới nhất.
* Đầu karaoke Việt KTV cập nhật đến vol 95 mới nhất.
* Đầu karaoke California cập nhật đến vol 20 mới nhất.
* Tra cứu theo Album Volume...
* Đặc biệt hỗ trợ đầy đủ lời bài hát.

Xem thêm: Tặng dữ liệu karaoke
Quay trở lại với chủ đề về Decision trees, thì ở 2 bài viết trước đã giới thiệu đến các bạn khái quát thế nào là thuật toán cây quyết định, bao gồm các thành phần, và một số công thức tính toán để lựa chọn các biến phân nhánh hay cách phân nhánh tối ưu, mục đích dự báo, phân loại, phân nhóm các đối tượng dữ liệu vào các nhóm, các lớp của biến mục tiêu sao cho chính xác nhất.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.3): C4.5 (ENTROPY)
Một câu nói nổi tiếng của William Glasser, chuyên gia tâm thân học Mỹ:
Chúng ta học….
10% của những gì ta đọc được
20% của những gì ta nghe thấy
30% của những gì ta nhìn thấy
50% của những gì ta nghe và nhìn thấy
70% của những gì ta thảo luận
80% của những gì ta trải nghiệm
95% của những điều ta dạy người khác

Xem thêm: Phần mềm hiện thị dữ liệu, phân tích dữ liệu
Tất cả chúng ta đang đều sống và làm việc trong thời đại công nghệ hiện đại nó đang làm thay đổi toàn bộ cục diện của tất cả hầu hết các lĩnh vực kinh tế, xã hội, y tế, quốc phòng,..

Xem thêm: BIG DATA – THÀNH QUẢ CỦA CÁCH MẠNG CÔNG NGHỆ HIỆN ĐẠI
Ngày nay, khi nhiều tổ chức đẩy mạnh tiếp cận dữ liệu, và cho rằng dữ liệu là nguồn lực quan trọng để phát triển, thì Data quality – chất lượng dữ liệu – càng được quan tâm và chú ý hơn. Theo Gartner (công ty hàng đầu thế giới chuyên về tư vấn và nghiên cứu), dữ liệu có chất lượng thấp sẽ ảnh hưởng tiêu cực đến năng suất, lợi nhuận của mỗi tổ chức đặc biệt khi mọi hành động, quyết định, chiến lược đều dựa vào dữ liệu.

Xem thêm: TỔNG QUAN VỀ DATA QUALITY – CHẤT LƯỢNG DỮ LIỆU (P1)
Ở bài viết trước, đã giới thiệu đến các bạn khái niệm về Data management – quản lý dữ liệu – lịch sử ra đời, cũng như các thành phần, quy trình, chức năng có trong Data management. Trở lại với phần 2 “Tầm quan trọng của quản lý dữ liệu” , sẽ đi vào phân tích chi tiết các lợi ích chính, các thách thức mỗi tổ chức phải đối mặt khi triển khai, và liệt kê một số giải pháp thực tiễn sẽ hỗ trợ hiệu quả.

Xem thêm: TẦM QUAN TRỌNG CỦA QUẢN LÝ DỮ LIỆU (DATA MANAGEMENT) (P2)
Nếu các bạn đã theo dõi các bài viết của Big Data Uni thì chắc cũng đã nắm được tổng quan về Big Data bao gồm khái niệm, lợi ích và ứng dụng của nó trong nhiều lĩnh vực khác nhau. Trong chủ đề bài viết lần này và sắp tới, chúng tôi sẽ không đề cập về những giá trị mà Big Data đem lại mà đi vào trọng tâm một trong những công cụ, quá trình quan trọng nhất đối với mỗi dự án Big Data đó chính là Data mining (hay còn gọi là khai phá dữ liệu).

Xem thêm: TỔNG QUAN VỀ DATA MINING (P1): KHAI PHÁ DỮ LIỆU LÀ GÌ?
Tại Việt Nam, kho dữ liệu còn rất hạn chế, muốn nghiên cứu phải đòi hỏi nền tảng công nghệ rất lớn. Tuy nhiên, để phục vụ người dân tốt hơn thì việc xây dựng dữ liệu lớn (big data) là việc cần thiết, phải đẩy mạnh triển khai trong thời gian tới.

Nhiều doanh nghiệp Việt Nam chưa xây dựng big data trong hoạt động sản xuất, kinh doanh và quản trị doanh nghiệp
Xem thêm: Việt Nam còn thiếu big data?
Bạn có biết là những vị trí liên quan tới lĩnh vực khoa học dữ liệu (data science) và phân tích dữ liệu (data analysis) là khó tuyển nhất với một công ty không? Sự bùng nổ nhu cầu tìm kiếm các chuyên gia trong những lĩnh vực này mở ra hàng loạt nhu cầu và đồng thời, đẩy thị trường tuyển dụng vào tình trạng cung không đủ đáp ứng cầu.

Xem thêm: Data Analysis là gì? Cần học những gì?
Big Data được ứng dụng trong rất nhiều lĩnh vực khác nhau như đã giới thiệu ở bài viết “Big Data – Tên gọi gợi lên khái niệm”. Bài viết tiếp theo dưới đây sẽ nói chi tiết hơn về các ứng dụng của Big data trong từng trường hợp cụ thể, và trong từng lĩnh vực đặc thù. Qua đó chúng ta sẽ thấy được tầm quan trọng trong việc thu thập và phân tích dữ liệu Big data.

Xem thêm: ỨNG DỤNG CỦA BIG DATA TRONG MỌI LĨNH VỰC
Ở các phần trước trong chủ đề về Statistics (thống kê) đã giới thiệu đến các bạn các khái niệm, lợi ích, ứng dụng của thống kê, đặc biệt Descriptive statistics (thống kê mô tả), một trong 2 dạng cơ bản của Statistics. Trở lại với bài viết lần này chúng tôi sẽ trình bày tóm tắt về dạng còn lại, chính là một số kiến thức của Inferential Statistics hay còn gọi là thống kê suy luận.

Xem thêm: TỔNG QUAN VỀ STATISTICS: INFERENTIAL STATISTICS (THỐNG KÊ SUY LUẬN)
Chủ đề về Big Data tác động đến social media marketing (tiếp thị qua mạng xã hội), mà cung cấp đến các bạn sẽ được chia thành 2 phần
- Phần 1: Sự “bùng nổ” của social media và xu hướng marketing mới
- Phần 2: Tác động của Big data đến xu hướng social media marketing

Xem thêm: SỰ “BÙNG NỔ” CỦA SOCIAL MEDIA VÀ XU HƯỚNG MARKETING MỚI
Data visualization tạm được dịch là trực quan hóa dữ liệu, đây là phương pháp không chỉ là bước quan trọng của bất kỳ quy trình phân tích, hay khai phá dữ liệu mà nó còn là công cụ được sử dụng phổ biến và rộng rãi ở mọi tổ chức thuộc mọi lĩnh vực, hay bởi mỗi một ai trong chúng ta, với mục đích đơn giản là truyền đạt, trình bày một cách hiệu quả, đơn giản, thu hút những thông tin, dữ liệu đến người đọc, người xem.

Xem thêm: TỔNG QUAN VỀ DATA VISUALIZATION (TRỰC QUAN HÓA DỮ LIỆU)
Trở lại với chủ đề về các xu hướng Big Data sẽ đi đầu trong năm 2019, ở phần 1, Big Data Uni đã đề cập về sự phát triển và thay đổi của Internet of Things (IOT), trí tuệ nhân tạo (Artificial Intelligence – AI), Machine Learning (ML) tác động như thế nào đến lĩnh vực Big Data, và một số dự báo về thị trường Big Data. Phần 2 bài viết, chúng tôi sẽ đề cập chi tiết về các xu hướng của những công cụ, cách thức hỗ trợ cho việc khai thác, tiếp cận Big Data, cùng với các vấn đề, thách thức mới trong lĩnh vực Big Data.

Xem thêm: TOP CÁC XU HƯỚNG BIG DATA SẼ ĐI ĐẦU TRONG NĂM 2019 (PHẦN 2)
Mỗi năm thiên tai như bão, lũ lụt, động đất gây ra thiệt hại rất lớn và nhiều sinh mạng. Các nhà khoa học không thể dự đoán khả năng xảy ra thảm họa và đề xuất đủ biện pháp phòng ngừa cho chính phủ nếu không có sự giúp đỡ của Big Data.

Xem thêm: Giải pháp Big data trong Quản Lý Thiên Tai
Big data là gì? Công nghệ dữ liệu lớn là gì? Phân tích dữ liệu lớn là gì? Mang lại lợi ích như thế nào? Ứng dụng của Big Data trong thời đại công nghệ 4.0 là gì?
Các công ty công nghệ lớn hiện nay tại sao lại cần và ứng dụng Big Data nhiều đến vậy? Những cơ hội và thách thức khi ứng dụng Big Data là gì?
Hẳn là bạn đã từng giật mình khi bạn tìm kiếm thông tin nào đó trên Google. Mua sắm ở các trang thương mại trực tuyến và nhận thấy các trang này.

Xem thêm: Big Data công nghệ biến “sắt” thành mỏ “vàng”, Cơ hội và thách thức
Để thu thập các thông tin bệnh nhân các nhà nghiên cứu phải sử dụng đến đơn vị petabyte. Mỗi petabyte dữ liệu tương đương với 1 triệu gigabyte. Công ty Express Scripts, có trụ sở tại St Louis, Missouri, Mỹ, đã thu thập được 22 petabyte dữ liệu y tế từ 83 triệu bệnh nhân, với số lượng dữ liệu này được chuyển đổi thành định dạng MP3, sẽ mất khoảng 44.000 năm để lắng nghe hết số lượng tệp nhạc này.

Xem thêm: Sự ảnh hưởng của “Big data” tới ngành Dược trong tương lai
Không có gì phải nghi ngờ, khi tất cả các doanh nghiệp hiện tại đều bị thôi thúc bởi lợi ích của việc khai thác dữ liệu (data) – thu thập, quản lý, xử lý, phân tích và diễn giải. Điều đó đòi hỏi mỗi tổ chức cần có một cơ sở dữ liệu (database) mới, tiên tiến để đáp ứng với môi trường kinh doanh hiện đại do các database cũ không thể bắt kịp tốc độ thay đổi về hình thức và khối lượng dữ liệu.

Xem thêm: QUẢN LÝ DỮ LIỆU LÀ CƠ HỘI TẠO GIÁ TRỊ KINH DOANH
Nếu các bạn hoạt động, làm việc trong lĩnh vực thương mại điện tử (E-commerce) hay digital marketing chắc biết đến Data management platform (DMP) còn được gọi là nền tảng quản lý dữ liệu tập trung.

Xem thêm: TẦM QUAN TRỌNG CỦA QUẢN LÝ DỮ LIỆU (DATA MANAGEMENT) (P1)
Nếu các bạn có theo dõi các bài viết trước của Big Data Uni về Chatbot thì cũng đã biết sự cần thiết và tầm quan trọng của hệ thống trả lời tự động ứng dụng trong mọi lĩnh vực, với mục đích quản lý hiệu quả các hoạt động tạo dựng, duy trì mối quan hệ với khách hàng đồng thời thu hút họ mua sản phẩm và đăng ký sử dụng dịch vụ.

Xem thêm: CÁC CHỈ SỐ KPI ĐÁNH GIÁ CHATBOT
Như vậy chúng ta đã cùng nhau đi qua 4 phần của series bài viết về thuật toán Decision trees hay còn gọi là thuật toán cây quyết định. Chúng ta đã làm quen với định nghĩa tổng quát, các dạng cây quyết định bao gồm phân 2 nhánh – CART, và nhiều nhánh C4.5 sử dụng các công thức Goodness of Split, Gini Index, Entropy kết hợp với Information Gain, hay Gain Ratio để xây dựng mô hình áp dụng cho biến mục tiêu là biến định tính, và chúng ta cũng tiếp cận qua một số cách thức để tăng độ hiệu quả của mô hình, tránh trường hợp Overfitting hay Underfitting như Stopping rule và Pruning method, và nhìn lại những ưu điểm, khuyết điểm một cách tổng thể về Decision Trees.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.5) REGRESSION TREE VÀ DECISION RULES
Từ khi có ứng dụng data science, ngành y tế và chăm sóc sức khỏe cũng có những bước nhảy vọt quan trọng. 5 nhóm lĩnh vực data science đã áp dụng thành công những ứng dụng của data science có thể kể đến như Phân tích hình ảnh y khoa, gien và bộ gien, Điều chế thuốc, phân tích và chẩn đoán, ứng dụng phần mềm sức khỏe hay trợ lý sức khỏe tâm lý.

Xem thêm: Ứng dụng Data Science vào lĩnh vực Y tế mang tính đột phá
Dịch vụ dữ liệu chính xác, tin cậy , đúng mục tiêu , đúng nhu cầu cho lĩnh vực du lịch, lữ hành, team-building,...
Ngoài ra chúng tôi còn có sẵn data địa điểm rất hữu ích cho các dự án khởi nghiệp về du lịch, địa điểm, mạng xã hội du lịch, ...

Xem thêm: Dịch vụ và giải pháp Big Data cho lĩnh vực du lịch
Ứng dụng Big Data trong ngành truyền thông và giải trí là cả một nghệ thuật. Khoa học và nghệ thuật là hai lĩnh vực trái ngược. Nhưng Big Data và nghệ thuật lại bổ sung cho nhau khá tốt. Ngành truyền thông và giải trí đã chứng kiến một sự thay đổi lớn thông qua liên kết với phân tích Big Data.

Xem thêm: Ứng dụng Big Data trong ngành truyền thông và giải trí
Trở lại với chủ đề Data security, bảo mật dữ liệu, ở phần 1 bài viết trước chúng ta đã cùng nhau tìm hiểu về thực trạng Data security trên toàn cầu thông qua bàn luận những số liệu từ các báo cáo, nghiên cứu của Verizon và IBM về Data breach (xâm phạm, đánh cắp, rò rỉ dữ liệu) tại những công ty, tổ chức đến từ nhiều quốc gia khác nhau; cũng như tìm hiểu tổng quan về Data security như khái niệm, lợi ích, thách thức.

Xem thêm: GIẢI PHÁP CẢI THIỆN BẢO MẬT DỮ LIỆU – DATA SECURITY
Big Data ngày càng được sử dụng để tối ưu hóa các quy trình kinh doanh. Các nhà bán lẻ có thể tối ưu hóa cổ phiếu của họ dựa trên dự đoán. Từ dữ liệu truyền thông xã hội, xu hướng tìm kiếm trên web và dự báo thời tiết.

Xem thêm: Giải Pháp Big Data Tối ưu hóa quy trình kinh doanh
Thông thường, khi khối lượng của một tập dữ liệu rất lớn và không thể quản lý được như các cơ sở dữ liệu truyền thống, thì chúng ta có thể gọi nó là Big Data. Đến lúc này, đám mây cung cấp cơ sở hạ tầng cần thiết cho việc tính toán dữ liệu lớn. Trong cuộc sống thực, nhiều tổ chức đang kết hợp hai công nghệ này để cải thiện hoạt động điều phối kinh doanh của mình.

Xem thêm: Giải pháp Big data cho lĩnh vực Điện Toán Đám Mây
Marketing là chìa khóa để cánh cửa thành công cho bất kỳ doanh nghiệp nào. Giờ đây, không chỉ các công ty lớn có thể điều hành các hoạt động quảng cáo tiếp thị mà cả các doanh nhân nhỏ cũng có thể chạy các chiến dịch quảng cáo thành công trên các nền tảng truyền thông xã hội và quảng bá sản phẩm của họ.

Xem thêm: Giải pháp Big data cho lĩnh vực Marketing
Big data hay còn gọi là dữ liệu lớn, làm liên tưởng đến hình ảnh của hệ thống máy chủ khổng lồ. Nhưng Big data rộng và lớn hơn thế nhiều. Có 10 lĩnh vực chính trong đó dữ liệu hiện đang được sử dụng để tạo lợi thế tuyệt vời. Trong đó, dữ liệu có thể được đưa vào hầu hết mọi mục đích.

Xem thêm: Big Data và Ứng dụng công nghệ trong thực tiễn
Việc quyết định phương pháp đầu tư kinh doanh của công ty là một vấn đề khá phức tạp, đặc biệt khi bạn không chắc chắn những yếu tố nào cần dựa vào chỉ tiêu doanh thu, đánh giá của khách hàng, phản hồi nhóm hoặc thậm chí là cảm nhận từ chính bạn.
Xem thêm: Những điều cần biết về phân tích dữ liệu đối với kinh doanh
Dữ liệu lớn có ở rất nhiều tổ chức, nhiều hoạt động xã hội, kinh doanh, khoa học và tiềm ẩn nhiều giá trị to lớn. Việc đó đồng nghĩa với các nhà khoa học phải đau đầu khi đối phó với việc lưu trữ, xử lý khối lượng số liệu khổng lồ và đa dạng về chủng loại dữ liệu.

Xem thêm: Big data với những vấn đề, giải pháp & thách thức
1. Big data là gì? Nó khác gì với việc lưu giữ và phân tích data truyền thống ?

Xem thêm: Hiểu, Học và ứng dụng Big Data như thế nào?
Ở phần 1 bài viết cùng chủ đề, đã giới thiệu các khái niệm về Data quality, Data quality management; lợi ích; tầm quan trọng; và các tiêu chuẩn, tiêu chí đánh giá chất lượng dữ liệu. Mặc dù nhiều công ty, tổ chức hiện nay đã nhận thức được sự cần thiết của các nhiệm vụ trong Data quality, nhưng họ vẫn phải đối mặt với nhiều thách thức, khó khăn khác nhau dẫn đến việc thiết lập, và triển khai các giải pháp thích hợp càng được quan tâm hơn bao giờ hết.

Xem thêm: TỔNG QUAN VỀ DATA QUALITY – CHẤT LƯỢNG DỮ LIỆU (P2)
Ở 2 bài viết trước đã giới thiệu đến các bạn thuật toán Classification đầu tiên là KNN (K – nearest neighbor) và một số phương pháp đánh giá mô hình phân loại như Hold out, Cross validation, hay Confusion matrix, Lift, Gain chart, ROC/ AUC. Trở lại với chủ đề về những thuật toán phân loại trong Data mining, lần này chúng tôi và các bạn sẽ tìm hiểu về Decision Tree, thuật toán có thể nói là “nổi tiếng”, “phổ biến” mà bất kỳ ai hoạt động và làm việc trong lĩnh vực khoa học dữ liệu, hoặc phân tích dữ liệu đều phải biết đến.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.1) : CLASSIFICATION & REGRESSION TREE (CART)
Trở lại với chủ đề về thống kê, ở phần trước chúng tôi đã giới thiệu đến các bạn các khái niệm về thống kê cũng như lợi ích và ứng dụng của nó, tiếp theo ở phần này, chúng tôi sẽ đề cập đến một mảng kiến thức quan trọng khác đó chính Descriptive statistics (thống kê mô tả)

Xem thêm: TỔNG QUAN VỀ STATISTICS: DESCRIPTIVE STATISTICS (THỐNG KÊ MÔ TẢ)