
Lịch sử
Vào khoảng những năm 1970–1980, các chuyên gia bắt đầu sử dụng thuật ngữ "phương pháp luận kỹ thuật thông tin" (information engineering methodology – IEM) để mô tả cách thiết kế cơ sở dữ liệu và ứng dụng phần mềm trong việc phân tích và xử lý dữ liệu. Họ phát triển các kỹ thuật này dành cho quản trị viên cơ sở dữ liệu (DBA) và các nhà phân tích hệ thống, dựa trên nhu cầu vận hành thực tế của các tổ chức trong thời kỳ đó. Mục tiêu là tạo cầu nối giữa chiến lược kinh doanh và hệ thống thông tin.
Một trong những người tiên phong trong lĩnh vực này là Clive Finkelstein, một chuyên gia người Úc. Từ năm 1976 đến 1980, ông đã viết nhiều bài báo về IEM và cùng James Martin đồng tác giả một báo cáo quan trọng của Viện Savant. Sau đó, Finkelstein tiếp tục phát triển phương pháp này theo hướng tập trung vào nhu cầu kinh doanh, nhằm thích ứng với môi trường doanh nghiệp thay đổi nhanh chóng, trong khi Martin lựa chọn hướng đi tập trung vào xử lý dữ liệu. Từ năm 1983 đến 1987, dưới sự hướng dẫn của Finkelstein, Charles M. Richter đóng vai trò quan trọng trong việc cải tiến IEM và góp phần phát triển phần mềm user data, giúp tự động hóa phương pháp này.
Đầu những năm 2000, phần lớn dữ liệu và công cụ phân tích dữ liệu đều do các bộ phận công nghệ thông tin (IT) nắm giữ. Các phòng ban khác, như kinh doanh hay tài chính, chủ yếu sử dụng dữ liệu để làm báo cáo, và rất ít khi có sự chia sẻ hay phối hợp về kỹ năng xử lý dữ liệu giữa các bộ phận.
Tuy nhiên, bước sang đầu thập niên 2010, cùng với sự phát triển mạnh mẽ của Internet, dữ liệu bắt đầu tăng trưởng vượt bậc cả về khối lượng, tốc độ lẫn mức độ đa dạng. Thuật ngữ "dữ liệu lớn" (big data) ra đời để mô tả hiện tượng này. Những công ty công nghệ định hướng dữ liệu như Facebook và Airbnb bắt đầu sử dụng khái niệm kỹ sư dữ liệu (data engineer). Khi dữ liệu trở nên quá lớn và phức tạp, các tập đoàn như Google, Facebook, Amazon, Apple, Microsoft và Netflix đã chủ động từ bỏ các phương pháp ETL và lưu trữ truyền thống. Thay vào đó, họ phát triển lĩnh vực kỹ thuật dữ liệu – một nhánh chuyên biệt của kỹ thuật phần mềm – tập trung vào việc xây dựng hạ tầng dữ liệu, thiết kế kho lưu trữ, bảo mật thông tin, khai phá và xử lý dữ liệu, mô hình hóa cũng như quản lý siêu dữ liệu.
Sự chuyển đổi này diễn ra song song với việc áp dụng tính toán đám mây (cloud computing), cho phép mở rộng quy mô linh hoạt và hiệu quả hơn. Nhờ vậy, dữ liệu không còn là “tài sản riêng” của bộ phận IT, mà ngày càng được sử dụng rộng rãi trong các phòng ban khác như bán hàng, tiếp thị hay chăm sóc khách hàng – nơi mà dữ liệu trở thành công cụ không thể thiếu để ra quyết định.