[REVIEW] Dữ Liệu Lớn – Big Data

dữ liệu lớn
dữ liệu lớn

Dịch cúm năm 2009 ở Mỹ

NĂM 2009 MỘT VI-RÚT CÚM mới được phát hiện. Kết hợp các yếu tố của các vi-rút gây cúm gà, chủng mới này, được gọi là H1N1, đã lây lan nhanh chóng. Trong vài tuần, các cơ sở y tế khắp thế giới lo sợ một đại dịch khủng khiếp đang xảy ra. Một số nhà bình luận đã cảnh báo về một dịch bệnh có quy mô của dịch cúm Tây Ban Nha vào năm 1918, lây nhiễm cho nửa tỷ người và làm chết hàng chục triệu người.

Tồi tệ hơn là không hề có vắcxin nào để chống lại vi-rút mới này. Hy vọng duy nhất của cơ quan y tế là giảm mức lây lan. Nhưng để làm điều đó, họ cần biết bệnh đã lan tới đâu.

Ở Mỹ, Trung tâm Kiểm soát và Phòng chống Bệnh dịch (CDC) đã yêu cầu các bác sĩ thông báo về các ca bệnh cúm mới. Nhưng bức tranh thật về đại dịch vẫn luôn bị chậm trễ một hoặc hai tuần. Nhiều người có thể bị bệnh vài ngày rồi mới đi gặp bác sĩ. Việc chuyển tiếp thông tin về các cơ quan trung ương đòi hỏi thời gian, và CDC chỉ xử lý các con số mỗi tuần một lần. Với một bệnh dịch lây lan nhanh, hai tuần chậm trễ cũng giống như dài vô tận.
Sự chậm trễ này đã hoàn toàn vô hiệu hóa các cơ quan y tế tại những thời điểm gay cấn nhất. Lúc việc đó xảy ra, vài tuần trước khi vi-rút H1N1 xuất hiện rầm rộ trên các phương tiện truyền thông, các kỹ sư của công ty Internet khổng lồ Google đã đăng một bài đáng chú ý trên tạp chí khoa học Nature. Nó đã tạo một chuyện giật gân trong giới chức y tế và các nhà khoa học máy tính, nhưng ngoài ra thì ít được quan tâm. Các tác giả lý giải Google có thể “dự đoán” sự lây lan của bệnh cúm mùa đông ở Mỹ như thế nào, không chỉ ở mức độ toàn quốc, mà còn chi tiết tới mức vùng và thậm chí tới mức tiểu bang. Google có thể đạt được điều này bằng cách xem xét những gì người sử dụng đã tìm kiếm trên Internet. Bởi Google nhận được hơn ba tỷ câu hỏi tìm kiếm mỗi ngày và lưu giữ tất cả chúng, nên nó có vô số dữ liệu để phân tích.

Dù các chuyên viên của Google phỏng đoán các lệnh tìm kiếm có thể nhằm thu lượm thông tin về cúm – gõ các câu đại loại như “thuốc ho và sốt” – nhưng không phải vậy: họ không biết, và họ đã thiết kế một hệ thống không quan tâm tới điều đó. Tất cả những gì hệ thống của họ làm là phát hiện mối tương quan giữa tần suất của một số câu hỏi tìm kiếm và sự lây lan của bệnh cúm theo thời gian và không gian. Tổng cộng, họ xử lý một lượng đáng kinh ngạc 450 triệu mô hình toán học khác nhau để kiểm tra các điều kiện tìm kiếm, so sánh các dự đoán của họ với các trường hợp bệnh thực tế từ CDC trong năm 2007 và 2008. Và họ đã vớ được vàng: phần mềm của họ tìm thấy một sự kết hợp của 45 điều kiện tìm kiếm mà khi sử dụng cùng với một mô hình toán học, có một mối tương quan mạnh mẽ giữa phỏng đoán của họ và các số liệu chính thức trên toàn quốc.

(Viktor Mayer-Schonberger, Kenneth Cukier)

Ở trên là 1 trong nhiều ứng dụng từ Big data, các ứng dụng khác có thể là

  • Google: phân loại thư nào là thư rác, xếp hạng tìm kiếm;
  • Linkedin: dự đoán những người quen nhau
  • Facebook: dự đoán hành vi, thói quen của người dùng;
  • Dịch vụ mai mối: ghép cặp như thế nào có xác suất thành công cao;
  • Web bán hàng: nên đề xuất sản phẩm bán chéo nào khác khi khách hàng xem trang hiện tại.
Amazon: chức năng đề xuất bán chéo ban đầu do ban biên tập phụ trách; sau do thuật toán phụ trách do hiệu năng cao hơn mà chi phí lại rẻ.

Trên đây là một trong các ứng dụng của Dữ liệu lớn. Trong cuốn sách còn nhiều ví dụ về ứng dụng trong kinh doanh, an ninh, quản lý nhà nước…

Thêm nữa, tác giả còn cho biết cách tiếp cận trên cơ sở Dữ liệu lớn có gì khác với cách truyền thống; Dự báo xu hướng và tiềm năng ứng dụng Big data; Các thách thức và vấn đề đặt ra cho xã hội

Mô tả rõ ràng cách tiếp cận Dữ liệu lớn so với cách làm cũ

Với cách làm cũ, để thu được thông tin, người ta chỉ có thể tìm cách lấy dữ liệu từ mẫu (thay vì toàn thể), phân tích và suy ra cho toàn thể. Vì cỡ mẫu nhỏ như vậy, người ta tìm cách lấy mẫu cho có tính đại diện cao, và đo lường cho thật chính xác.

Trong làm việc của dữ liệu lớn, người ta tìm cách lấy dữ liệu tối đa, chấp nhận một số sai sót trong đo lường.

Một điểm đặc biệt nữa là kết luận trong nghiên cứu với dữ liệu lớn là tìm ra mô thức (pattern) hay là mối tương quan. Cụ thể, người ta chỉ biết khi điều kiện 1, điều kiện 2, điều kiện 3… điều kiện n xảy ra thì xác suất xảy ra cái xx là 80% chẳng hạn. Còn nó xảy ra theo cơ chế nào thì không biết.

Tức là cách tiếp cận này trả lời câu hỏi cái gì, chứ không trả lời câu hỏi vì sao.

Dự báo xu hướng và tiềm năng ứng dụng Big data

Xu hướng Dữ liệu hóa mọi thứ: tư thế ngồi, vị trí tòa nhà, tương tác… mọi thứ. Không giống như trước đây, khi thu thập và lưu trữ dữ liệu khó (và đắt). Dữ liệu hiện nay có thể tìm kiếm, lưu trữ với chi phí thấp hơn. Đặc biệt khi vạn vật có xu hướng kết nối với internet (IoT).

Mỗi ngày, hoạt động mỗi người thành thị hiện nay sản sinh ra rất nhiều dữ liệu. Chỉ cần dùng một smartphone là đã có dữ liệu về: mỗi ngày bạn thức dậy lúc mấy giờ, ngủ lúc mấy giờ, lộ trình hằng ngày. Dùng càng nhiều app, lượng dữ liệu được sinh ra và lưu trữ càng nhiều. SmartTV cũng vậy, SmartHome cũng vậy mấy cái smart khác đều vậy (IoT mà).

Trong khi đó tiềm năng phân tích và ứng dụng lớn. Khiến một số doanh nghiệp sẵn sàng tìm cách dữ liệu hóa mọi thứ mà chưa có dự định khai thác như thế nào.

Dữ liệu có thể tái sử dụng mà không bị hao mòn. Ngoài việc phục vụ cho mục đích cụ thể khi nó được thu thập. Dữ liệu có thể được tái sử dụng, tái tổ hợp để sử dụng.

Các thách thức và vấn đề đặt ra cho xã hội

Thách thức về quyền riêng tư cho người dùng. Người dùng hiện nay bị theo dõi và thu thập dữ liệu bởi quá nhiều thiết bị và ứng dụng. Và một bên (doanh nghiệp, hoặc hacker nào đó) có thể truy cập và gây thiệt hại cho người dùng.

Thách thức về cơ chế quản lý các doanh nghiệp sở hữu khối dữ liệu khổng lồ: Chưa cập nhật những sẽ cập nhật. Hiện nay, những đơn vị như Facebook, Google có khối dữ liệu khổng lồ. Quy định pháp luật vẫn còn quản lý lỏng lẻo, chưa ràng buộc được sự chia sẻ thông tin cá nhân người dùng từ các đơn vị sở hữu dữ liệu cho bên thứ ba.

Những điều chưa nói đến trong cuốn sách

Cuốn sách “Dữ liệu lớn” này đã mô tả tổng quát. Nhưng một điểm quan trọng chưa được nói đến trong cuốn sách là cách thức để triển khai và khai thác dữ liệu lớn ở các cấp độ cá nhân, doanh nghiệp, chính phủ…

Dù vậy, cuốn sách này vẫn là một cuốn đáng đọc để hiểu được thế giới đã làm được gì, đang đi đến đâu và sắp tới có thể sẽ đối mặt với vấn đề gì.

THÔNG TIN SÁCH
Tựa đề: DỮ LIỆU LỚN
Tác giả:  Viktor Mayer-Schonberger, Kenneth Cukier
Ngày xuất bản: 2014
Thể loại: Khoa học kỹ thuật
Ngôn ngữ: Tiếng Việt
Nhà xuất bản: NXB Trẻ
ISBN: 9786041031869 6041031860

REVIEW
4.9

Summary

Cuốn sách cung cấp được tổng quát về Bigdata: từ định nghĩa, các case cụ thể, sự khác biệt trong cách tiếp cận với dữ liệu nhỏ, ưu/khuyết điểm đến xu hướng triển khai và sử dụng, tiềm năng ứng dụng trong tương lai.

Người đọc có thể có cái nhìn tổng quan tốt.

Gửi phản hồi