Rất nhiều trường hợp, dữ liệu được thu thập là không cấu trúc hoặc có sự khác biệt lớn về cấu trúc. Ví dụ như, một số sản phẩm có mã vạch trong khi một số khác thì không.
Liệu rằng việc sử dụng NoSQL để lưu trữ dữ liệu thô và cơ sở dữ liệu quan hệ cho dữ liệu đã được xử lý để trình bày có phải là lựa chọn phù hợp hơn?
Mức độ an toàn của dịch vụ dữ liệu lớn trên đám mây công cộng
Liệu rằng có những giải pháp bảo mật tiêu chuẩn dành riêng cho các dịch vụ này?
Khách hàng có sẵn sàng chấp nhận đám mây công cộng làm nền tảng cho các dự án dữ liệu lớn mang tính thương mại hay không?
Giá trị cốt lõi của dữ liệu lớn có phải nằm ở tính thời gian thực của phân tích?
Dù khối lượng dữ liệu có thể không quá lớn, nhưng yêu cầu về tính thời gian thực và chính xác lại rất cao? Điều này đặt ra câu hỏi về trọng tâm giá trị thật sự của dữ liệu lớn.
Tại sao kiến trúc phân tán nhất định phải dựa trên mô hình Hadoop?
Tại sao chúng ta không thể tìm kiếm các phương pháp khác ngoài Hadoop để xây dựng các hệ thống phân tán hiệu quả hơn?
Việc trích xuất dữ liệu có cấu trúc từ một lượng lớn thông tin không cấu trúc là một so keo phần quan Web cá độ bóng đá trọng của dữ liệu lớn
Do đó, việc thu thập và tổ chức các quy tắc phổ biến để trích xuất dữ liệu là vô cùng quý giá. Ví dụ, biểu thức chính quy (regex) cho số điện thoại, địa chỉ email, v.v...
Một số biểu thức chính quy phổ biến
Quan hệ giữa Spark và Hadoop
Năm 2014, Spark đã thay thế MapReduce trở thành động cơ mặc định của Hadoop. Spark khắc phục vấn đề truy cập đĩa liên tục của MapReduce bằng cách tối ưu hóa việc sử dụng bộ nhớ.
Spark cũng hỗ trợ nhiều hệ thống khác nhau như HBase, Cassandra, v.v...
Đặc điểm nổi bật của HBase
Có khả năng lưu trữ hàng chục tỷ dòng dữ liệu với vài triệu cột.
Các cột trong mỗi dòng có thể hoàn toàn khác nhau.
Các cột rỗng không chiếm dung lượng lưu trữ, do đó thiết kế bảng có thể rất linh hoạt.
Mỗi ô dữ liệu có thể chứa nhiều phiên bản dữ liệu, thường được đánh dấu bằng thời gian.
Đề xuất sử dụng một bảng duy nhất để lưu trữ tất cả dữ liệu.
Không hỗ trợ truy vấn phạm vi, chỉ hỗ trợ truy vấn theo khóa dòng (row key).