Dữ liệu lớn - bd truc tuyen

/imgposts/qkjom9qa.jpg

Rất nhiều trường hợp, dữ liệu được thu thập là không cấu trúc hoặc có sự khác biệt lớn về cấu trúc. Ví dụ như, một số sản phẩm có mã vạch trong khi một số khác thì không. Liệu rằng việc sử dụng NoSQL để lưu trữ dữ liệu thô và cơ sở dữ liệu quan hệ cho dữ liệu đã được xử lý để trình bày có phải là lựa chọn phù hợp hơn?

  • Liệu rằng có những giải pháp bảo mật tiêu chuẩn dành riêng cho các dịch vụ này?
  • Khách hàng có sẵn sàng chấp nhận đám mây công cộng làm nền tảng cho các dự án dữ liệu lớn mang tính thương mại hay không?

Dù khối lượng dữ liệu có thể không quá lớn, nhưng yêu cầu về tính thời gian thực và chính xác lại rất cao? Điều này đặt ra câu hỏi về trọng tâm giá trị thật sự của dữ liệu lớn.

Tại sao chúng ta không thể tìm kiếm các phương pháp khác ngoài Hadoop để xây dựng các hệ thống phân tán hiệu quả hơn?

Do đó, việc thu thập và tổ chức các quy tắc phổ biến để trích xuất dữ liệu là vô cùng quý giá. Ví dụ, biểu thức chính quy (regex) cho số điện thoại, địa chỉ email, v.v...

  • Một số biểu thức chính quy phổ biến

Năm 2014, Spark đã thay thế MapReduce trở thành động cơ mặc định của Hadoop. Spark khắc phục vấn đề truy cập đĩa liên tục của MapReduce bằng cách tối ưu hóa việc sử dụng bộ nhớ. Spark cũng hỗ trợ nhiều hệ thống khác nhau như HBase, Cassandra, v.v...

  • Có khả năng lưu trữ hàng chục tỷ dòng dữ liệu với vài triệu cột.
  • Các cột trong mỗi dòng có thể hoàn toàn khác nhau.
  • Các cột rỗng không chiếm dung lượng lưu trữ, do đó thiết kế bảng có thể rất linh hoạt.
  • Mỗi ô dữ liệu có thể chứa nhiều phiên bản dữ liệu, thường được đánh dấu bằng thời gian.
  • Đề xuất sử dụng một bảng duy nhất để lưu trữ tất cả dữ liệu.
  • Không hỗ trợ truy vấn phạm vi, chỉ hỗ trợ truy vấn theo khóa dòng (row key).