Big Data có thể tạo ra các phương pháp tiếp cận dựa trên dữ liệu sáng tạo để dạy học sinh. Ở nhiều nước, việc ứng dụng Big Data trong trường học và cao đẳng đã dần trở nên phổ biến. Nhưng các nước đang phát triển cũng bắt đầu nghiên cứu để ứng dụng trong các hoạt động giảng dạy.

Xem thêm: Giải pháp Big data cho lĩnh vực Giáo Dục
Phân tích dữ liệu là một công việc rất quan trọng giúp chúng ta có thể lập báo cáo tốt hơn, tránh được những sai sót, đảm bảo được tính chính xác của báo cáo. Vậy phân tích dữ liệu là phải làm những công việc gì? Sau đây chúng ta sẽ tìm hiểu về kỹ năng phân tích dữ liệu trước khi lập báo cáo trên Excel thông qua 1 bài tập sau:
Giả sử rằng bạn làm ở vị trí trưởng bộ phận bán hàng. Cuối tháng bạn nhận được 1 bảng dữ liệu về bán hàng trong tháng của cửa hàng mình như sau:

Trở lại với chủ đề bài viết về thuật toán cây quyết định, ở bài viết trước đã giới thiệu đến các bạn tổng quan thế nào là Decision Tree, các công thức quan trọng để xác định cách phân nhánh tối ưu hay nói cách khác là đem lại kết quả phân loại (classification) chính xác dựa trên các thuộc tính dữ liệu và đặc biệt là thuật toán CART (classification and regression tree) sử dụng công thức “Goodness of Split”.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.2): CART (GINI INDEX)
1. Xu hướng nghề nghiệp trong tương lai
Hiện tại, chúng ta đang sống trong giai đoạn đầu của thời kỳ cách mạng công nghiệp lần thứ 4. Triết lý của cuộc cách mạng công nghiệp 4.0 là chúng ta phải sử dụng công nghệ thông tin để tăng được năng suất lao động, từ đó tiết kiệm được chi phí, mang lại lợi ích cho người tiêu dùng.

Xem thêm: CHUYÊN GIA PHÂN TÍCH DỮ LIỆU – SỰ THÀNH CÔNG TRONG TƯƠNG LAI
Từ khi có ứng dụng data science, ngành y tế và chăm sóc sức khỏe cũng có những bước nhảy vọt quan trọng. 5 nhóm lĩnh vực data science đã áp dụng thành công những ứng dụng của data science có thể kể đến như Phân tích hình ảnh y khoa, gien và bộ gien, Điều chế thuốc, phân tích và chẩn đoán, ứng dụng phần mềm sức khỏe hay trợ lý sức khỏe tâm lý.

Xem thêm: Ứng dụng Data Science vào lĩnh vực Y tế mang tính đột phá
Ngày nay, khi nhiều tổ chức đẩy mạnh tiếp cận dữ liệu, và cho rằng dữ liệu là nguồn lực quan trọng để phát triển, thì Data quality – chất lượng dữ liệu – càng được quan tâm và chú ý hơn. Theo Gartner (công ty hàng đầu thế giới chuyên về tư vấn và nghiên cứu), dữ liệu có chất lượng thấp sẽ ảnh hưởng tiêu cực đến năng suất, lợi nhuận của mỗi tổ chức đặc biệt khi mọi hành động, quyết định, chiến lược đều dựa vào dữ liệu.

Xem thêm: TỔNG QUAN VỀ DATA QUALITY – CHẤT LƯỢNG DỮ LIỆU (P1)
Big Data được ứng dụng trong rất nhiều lĩnh vực khác nhau như đã giới thiệu ở bài viết “Big Data – Tên gọi gợi lên khái niệm”. Bài viết tiếp theo dưới đây sẽ nói chi tiết hơn về các ứng dụng của Big data trong từng trường hợp cụ thể, và trong từng lĩnh vực đặc thù. Qua đó chúng ta sẽ thấy được tầm quan trọng trong việc thu thập và phân tích dữ liệu Big data.

Xem thêm: ỨNG DỤNG CỦA BIG DATA TRONG MỌI LĨNH VỰC
Ở 2 bài viết trước đã giới thiệu đến các bạn thuật toán Classification đầu tiên là KNN (K – nearest neighbor) và một số phương pháp đánh giá mô hình phân loại như Hold out, Cross validation, hay Confusion matrix, Lift, Gain chart, ROC/ AUC. Trở lại với chủ đề về những thuật toán phân loại trong Data mining, lần này chúng tôi và các bạn sẽ tìm hiểu về Decision Tree, thuật toán có thể nói là “nổi tiếng”, “phổ biến” mà bất kỳ ai hoạt động và làm việc trong lĩnh vực khoa học dữ liệu, hoặc phân tích dữ liệu đều phải biết đến.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.1) : CLASSIFICATION & REGRESSION TREE (CART)
Bộ dữ liệu này sẽ có ích cho các bạn xây dựng app và website tra cứu bài hát karaoke, tra cứu tác giả, tra cứu theo đầu hoặc đĩa karaoke...
* Mã số Karaoke Việt Nam Arirang 5 số, California 6 số, MusicCore, Sơn Ca Media và Việt KTV bao gồm cả tiếng Việt và tiếng Anh.
* Đầu karaoke Arirang cập nhật đến vol 64 mới nhất.
* Đầu karaoke MusicCore cập nhật đến vol 93 mới nhất.
* Đầu karaoke Sơn Ca Media (ACNOS) cập nhật đến vol 58 mới nhất.
* Đầu karaoke Việt KTV cập nhật đến vol 95 mới nhất.
* Đầu karaoke California cập nhật đến vol 20 mới nhất.
* Tra cứu theo Album Volume...
* Đặc biệt hỗ trợ đầy đủ lời bài hát.

Xem thêm: Tặng dữ liệu karaoke
Sự xuất hiện ngày càng nhiều các sản phẩm công nghệ, kỹ thuật số thông minh tiên tiến gia tăng tối đa trải nghiệm khách hàng cho thấy mức độ phổ biến và ứng dụng rộng rãi của Machine Learning để phát triển các sản phẩm AI (Artificial Intelligence – trí tuệ nhân tạo). Cũng chính các thay đổi cực kỳ lớn và thịnh hành của môi trường công nghệ đã tạo cơ hội, mở ra cánh cửa để Big Data thúc đẩy kinh tế, hỗ trợ các công ty cải thiện hiệu quả kinh doanh của mình thông qua khai thác giá trị tiềm ẩn, thông tin hữu ích từ dữ liệu.

Xem thêm: TOP CÁC XU HƯỚNG BIG DATA SẼ ĐI ĐẦU TRONG NĂM 2019 (PHẦN 1)
Business Intelligenc (BI) hay Data Analytics – phân tích dữ liệu từ lâu đã trở thành các công cụ hữu ích hỗ trợ các tổ chức, công ty trong quá trình hoạt động và phát triển. Ở bài viết lần này, sẽ giới thiệu đến các bạn các lợi ích của phân tích dữ liệu trong kinh doanh, nhưng trước tiên ta cùng phân biệt rõ 2 khái niệm được nêu ở trên mà nhiều người thường nhầm lẫn.

Xem thêm: LỢI ÍCH PHÂN TÍCH DỮ LIỆU TRONG KINH DOANH
Khoa học phân tích dữ liệu là một nhánh rẽ quan trọng trong lĩnh vực công nghệ thông tin. Nó sớm bộc lộ những tiềm lực quan trọng thúc đẩy sự phát triển của thế giới. Với sự phát triển nhanh chóng và lan rộng của mình, ngành Khoa học Dữ liệu đặc biệt thu hút sự quan tâm của các chuyên gia Việt Nam và cả trên khắp thế giới.

Xem thêm: Khoa học phân tích dữ liệu – Góc nhìn từ Việt Nam và Thế Giới
Nếu các bạn có theo dõi những bài viết của chúng tôi về Data management (quản lý dữ liệu) và Data quality (chất lượng dữ liệu), thì chắc cũng biết tầm quan trọng của quá trình Data security; sự ra đời của những bộ luật, điều luật về bảo mật thông tin, dữ liệu như GDPR tại châu Âu, luật An ninh Mạng ở nước ta; đặc biệt là xu hướng khách hàng đang ngày càng quan tâm hơn về tính minh bạch trong việc sử dụng, và khả năng bảo vệ nguồn dữ liệu, thông tin cá nhân của họ tại các công ty.

Xem thêm: THỰC TRẠNG DATA SECURITY TRÊN TOÀN CẦU
Đây là một trong những lĩnh vực sử dụng Big data công khai và lớn nhất hiện nay. Big data được sử dụng để hiểu rõ hơn về khách hàng cũng như hành vi và sở thích của họ. Các công ty rất muốn mở rộng bộ dữ liệu truyền thông của họ, dữ liệu truyền thông xã hội, nhật ký trình duyệt cũng như phân tích văn bản, dữ liệu cảm biến. Để có được bức tranh đầy đủ hơn về khách hàng của họ. Mục tiêu lớn hơn, trong nhiều trường hợp, là tạo ra các mô hình dự đoán.

Xem thêm: Giải pháp Big data giúp hiểu Khách Hàng Mục Tiêu
Data visualization tạm được dịch là trực quan hóa dữ liệu, đây là phương pháp không chỉ là bước quan trọng của bất kỳ quy trình phân tích, hay khai phá dữ liệu mà nó còn là công cụ được sử dụng phổ biến và rộng rãi ở mọi tổ chức thuộc mọi lĩnh vực, hay bởi mỗi một ai trong chúng ta, với mục đích đơn giản là truyền đạt, trình bày một cách hiệu quả, đơn giản, thu hút những thông tin, dữ liệu đến người đọc, người xem.

Xem thêm: TỔNG QUAN VỀ DATA VISUALIZATION (TRỰC QUAN HÓA DỮ LIỆU)
Một câu nói nổi tiếng của William Glasser, chuyên gia tâm thân học Mỹ:
Chúng ta học….
10% của những gì ta đọc được
20% của những gì ta nghe thấy
30% của những gì ta nhìn thấy
50% của những gì ta nghe và nhìn thấy
70% của những gì ta thảo luận
80% của những gì ta trải nghiệm
95% của những điều ta dạy người khác

Xem thêm: Phần mềm hiện thị dữ liệu, phân tích dữ liệu
Giới thiệu về K – nearest neighbor (KNN)
Ở các bài viết trước đã giới thiệu đến các bạn một cách tổng quan những chủ đề về Data mining (Khai phá dữ liệu), Predictive analytics (Phân tích dự báo), Statistics (Thống kê) bao gồm các khái niệm quan trọng, kỹ thuật phân tích và ứng dụng, lợi ích trong các lĩnh vực khác nhau.

Xem thêm: THUẬT TOÁN KNN VÀ VÍ DỤ ĐƠN GIẢN TRONG NGÀNH NGÂN HÀNG
Trở lại với chủ đề bài viết về phân tích dự báo – Predictive analytics, ở phần 1, đã giới thiệu đến các bạn thế nào là phân tích dự báo, phân biệt nó với Data analytics, Descriptive analytics (phân tích mô tả) và Prescriptive analytics (phân tích đề xuất), còn phần 2 lần này chúng tôi sẽ đi vào trình bày một cách tổng quan về bản chất, cách thức vận hành, quy trình, và các thuật toán hay kỹ thuật phân tích được sử dụng trong Predictive analytics.

Xem thêm: TỔNG QUAN VỀ PREDICTIVE ANALYTICS (PHÂN TÍCH DỰ BÁO) (PHẦN 2)
Big data hay còn gọi là dữ liệu lớn, làm liên tưởng đến hình ảnh của hệ thống máy chủ khổng lồ. Nhưng Big data rộng và lớn hơn thế nhiều. Có 10 lĩnh vực chính trong đó dữ liệu hiện đang được sử dụng để tạo lợi thế tuyệt vời. Trong đó, dữ liệu có thể được đưa vào hầu hết mọi mục đích.

Xem thêm: Big Data và Ứng dụng công nghệ trong thực tiễn
Sự phát triển của ngành ngân hàng (Banking) đi đôi với sự ra đời của Big Data
Ngành ngân hàng đã phát triển theo bước nhảy vọt trong thập kỷ qua từ hoạt động vận hành kinh doanh đến cung cấp dịch vụ. Điều đáng ngạc nhiên chính là, hầu hết các ngân hàng đều gặp khó khăn hay thất bại trong việc sử dụng, khai thác thông tin, dữ liệu từ cơ sở dữ liệu (database) mà họ có được từ khách hàng và từ các chi nhánh, bộ phận của tổ chức.

Xem thêm: ỨNG DỤNG CỦA BIG DATA TRONG LĨNH VỰC NGÂN HÀNG (PHẦN 1)
Marketing là chìa khóa để cánh cửa thành công cho bất kỳ doanh nghiệp nào. Giờ đây, không chỉ các công ty lớn có thể điều hành các hoạt động quảng cáo tiếp thị mà cả các doanh nhân nhỏ cũng có thể chạy các chiến dịch quảng cáo thành công trên các nền tảng truyền thông xã hội và quảng bá sản phẩm của họ.

Xem thêm: Giải pháp Big data cho lĩnh vực Marketing
Ở bài viết trước, đã giới thiệu đến các bạn thuật toán đầu tiên của mô hình Classification – mô hình phân loại – là thuật toán K nearest neighbor (KNN) với công thức cơ bản, và ví dụ đơn giản về ứng dụng của KNN trong ngành ngân hàng để hiểu hơn cách vận hành thuật toán.

Xem thêm: PHƯƠNG PHÁP ĐÁNH GIÁ MÔ HÌNH PHÂN LOẠI (CLASSIFICATION MODEL EVALUTATION)
Ứng dụng Big Data trong quản lý doanh thu
Ngành công nghiệp du lịch và lữ hành đang đối mặt với thách thức bán đúng sản phẩm đến đúng đối tượng khách hàng vào thời điểm chính xác và giữ đúng giá ở đúng kênh. Tất cả điều này đòi hỏi dữ liệu nội bộ lẫn bên ngoài. Dữ liệu nội bộ như kỳ vọng của khách hàng trong quá khứ, tỷ lệ hết vé, doanh thu phòng và tình trạng đặt vé hiện tại. Dữ liệu bên ngoài gồm sự kiện, thời tiết, những chuyến bay và những kỳ nghỉ.

Xem thêm: Ứng dụng Big Data trong ngành du lịch
Tìm hiểu về mối quan hệ giữa Big Data và Cloud
Việc tận dụng và khai thác Big Data để phục vụ cho mục đích cải thiện hiệu quả hoạt động kinh doanh ở mỗi công ty ngày càng trở nên quan trọng và đem lại lợi ích cực kỳ to lớn. Big Data được xem là tài sản cực kỳ chủ lực không thuộc tài chính và nhân lực, nên tài nguyên này cũng cần được quản lý và sử dụng đúng cách.

Xem thêm: BIG DATA VÀ CLOUD – SỰ KẾT HỢP HOÀN HẢO
Dữ liệu khách hàng hay Customer data được coi là tài sản, nguồn thông tin vô giá đối với mọi công ty thuộc nhiều lĩnh vực kinh doanh khác nhau. Việc triển khai các quy trình khai thác, dự án nghiên cứu, phân tích Customer data với mục đích tìm hiểu, nắm bắt mong muốn, nhu cầu thầm kín của khách hàng, và chuyển nó thành những giá trị cụ thể thông qua từng chiến lược, kế hoạch hoạt động chính là chìa khóa cạnh tranh của mỗi tổ chức ngày nay.

Xem thêm: TỔNG QUAN VỀ CUSTOMER DATA (P.1) – DỮ LIỆU KHÁCH HÀNG LÀ GÌ?
Murray Webb, 33 tuổi, tốt nghiệp thạc sĩ về thống kê ứng dụng (applied statistics) tại Trường Đại học Kennesaw (Atlanta, Mỹ), hiện kiếm được 160.000 đô la một năm với công việc chủ yếu là theo dõi phần thông tin về dữ liệu chăm sóc sức khỏe khách hàng cho các bệnh viện. Webb cho biết hằng tuần đều có người đại diện của các công ty cũng như các công ty chuyên cung cấp nguồn nhân lực tìm đến anh và đưa ra các lời mời làm việc như một nhà khoa học dữ liệu (data scientist).

Xem thêm: Khoa học dữ liệu – nghề đang hái ra tiền ở Mỹ
Ở bài viết trước, đã giới thiệu đến các bạn khái niệm về Data management – quản lý dữ liệu – lịch sử ra đời, cũng như các thành phần, quy trình, chức năng có trong Data management. Trở lại với phần 2 “Tầm quan trọng của quản lý dữ liệu” , sẽ đi vào phân tích chi tiết các lợi ích chính, các thách thức mỗi tổ chức phải đối mặt khi triển khai, và liệt kê một số giải pháp thực tiễn sẽ hỗ trợ hiệu quả.

Xem thêm: TẦM QUAN TRỌNG CỦA QUẢN LÝ DỮ LIỆU (DATA MANAGEMENT) (P2)
Để thành công và phát triển, một công ty cần phải có khả năng đạt được, giữ chân, thỏa mãn và thu hút càng nhiều khách hàng càng tốt. Hiểu rõ hơn về khách hàng thông qua phân tích dữ liệu khách hàng vừa là công việc, nhiệm vụ rất quan trọng vừa là cơ sở để đánh giá công ty hoạt động hiệu quả như thế nào.

Xem thêm: TỔNG QUAN VỀ CUSTOMER DATA (P.2) LỢI ÍCH CỦA DỮ LIỆU KHÁCH HÀNG
Ở phần 1 bài viết cùng chủ đề, đã giới thiệu các khái niệm về Data quality, Data quality management; lợi ích; tầm quan trọng; và các tiêu chuẩn, tiêu chí đánh giá chất lượng dữ liệu. Mặc dù nhiều công ty, tổ chức hiện nay đã nhận thức được sự cần thiết của các nhiệm vụ trong Data quality, nhưng họ vẫn phải đối mặt với nhiều thách thức, khó khăn khác nhau dẫn đến việc thiết lập, và triển khai các giải pháp thích hợp càng được quan tâm hơn bao giờ hết.

Xem thêm: TỔNG QUAN VỀ DATA QUALITY – CHẤT LƯỢNG DỮ LIỆU (P2)
Thương mại điện tử không chỉ tận hưởng những lợi ích của việc điều hành trực tuyến mà còn phải đối mặt với nhiều thách thức để đạt được các mục tiêu kinh doanh. Lý do là bởi các doanh nghiệp dù là nhỏ hay lớn, khi đã tham gia vào thị trường này đều cần đầu tư mạnh để cải tiến công nghệ.

Xem thêm: Giải pháp Big data cho Thương Mại Điện Tử
Trong hệ thống ngân hàng, Big Data đã và đang được ứng dụng hiệu quả từ cách đây khá lâu. Big Data thể hiện vai trò không thể thay thế của mình trong mọi hoạt động của ngân hàng: từ thu tiền mặt đến quản lý tài chính. Các ứng dụng Big Data đã giúp giảm bớt rắc rối của khách hàng và tạo doanh thu cho các ngân hàng.

Xem thêm: Giải pháp Big data cho lĩnh vực Ngân hàng
Trở lại với chủ đề về thống kê, ở phần trước chúng tôi đã giới thiệu đến các bạn các khái niệm về thống kê cũng như lợi ích và ứng dụng của nó, tiếp theo ở phần này, chúng tôi sẽ đề cập đến một mảng kiến thức quan trọng khác đó chính Descriptive statistics (thống kê mô tả)

Xem thêm: TỔNG QUAN VỀ STATISTICS: DESCRIPTIVE STATISTICS (THỐNG KÊ MÔ TẢ)
Quay trở lại với chủ đề về Decision trees, thì ở 2 bài viết trước đã giới thiệu đến các bạn khái quát thế nào là thuật toán cây quyết định, bao gồm các thành phần, và một số công thức tính toán để lựa chọn các biến phân nhánh hay cách phân nhánh tối ưu, mục đích dự báo, phân loại, phân nhóm các đối tượng dữ liệu vào các nhóm, các lớp của biến mục tiêu sao cho chính xác nhất.

Xem thêm: THUẬT TOÁN CÂY QUYẾT ĐỊNH (P.3): C4.5 (ENTROPY)
Ứng dụng Big Data trong ngành truyền thông và giải trí là cả một nghệ thuật. Khoa học và nghệ thuật là hai lĩnh vực trái ngược. Nhưng Big Data và nghệ thuật lại bổ sung cho nhau khá tốt. Ngành truyền thông và giải trí đã chứng kiến một sự thay đổi lớn thông qua liên kết với phân tích Big Data.

Xem thêm: Ứng dụng Big Data trong ngành truyền thông và giải trí
Ở bài viết trước, phần 1 về ứng dụng Big Data trong lĩnh vực E-commerce, đã giới thiệu đến các bạn tổng quan về thị trường E-commerce, các định nghĩa, khái niệm về kinh doanh trực tuyến, đồng thời mô tả nguồn dữ liệu E-commerce có những đặc tính được coi là Big Data và nói lên nhu cầu khai thác.

Xem thêm: ỨNG DỤNG BIG DATA TRONG LĨNH VỰC E-COMMERCE (PHẦN 2)
Việc quyết định phương pháp đầu tư kinh doanh của công ty là một vấn đề khá phức tạp, đặc biệt khi bạn không chắc chắn những yếu tố nào cần dựa vào chỉ tiêu doanh thu, đánh giá của khách hàng, phản hồi nhóm hoặc thậm chí là cảm nhận từ chính bạn.
Xem thêm: Những điều cần biết về phân tích dữ liệu đối với kinh doanh
Hiện nay dữ liệu lớn (big data) và khoa học dữ liệu là một lĩnh vực rất sôi nỗi và phát triễn nhanh trong thời gian gần đây. Như đánh giá của Trường Đại Học Harvard, Hoa Kỳ thì nhà khoa học dữ liệu (data scientist) sẽ là công việc hấp dẫn nhất thế kỹ 21.

Xem thêm: Lời khuyên để trở thành nhà khoa học dữ liệu tốt!