QUY TRÌNH TRIỂN KHAI DATA WAREHOUSE
Quy trình triển khai hệ thống Data Warehouse
1. Đơn vị nghiệp vụ đưa yêu cầu nghiệp vụ, bộ phận BA phân tích các thông tin nghiệp vụ, yêu cầu tiện ích và phương pháp hiển thị
- Đối với các đơn vị mới triển khai Data Warehouse thì nên lựa chọn các báo cáo sau để xây dựng Data Warehouse
- Các báo cáo gây ảnh hưởng đến hiệu năng hệ thống
- Các báo cáo tổng hợp từ nhiều hệ thống trước đây phải tổng hợp thủ công
- Đối với các đơn vị đã triển khai Data Warehouse
- Xây dựng Data Warehouse dựa trên nhu cầu phân tích dữ liệu
- Dựa trên nhu cầu xây dựng hệ thống AI (Cần hiểu chi tiết tại sao Data Warehouse cần thiết thì các bạn tìm hiểu tại …)
2. Phân tích yêu cầu nghiệp vụ của các hệ thống liên quan (Các hệ thống OLTP)
- Đối với các yêu cầu nghiệp vụ có thể lấy và tổng hợp dữ liệu từ nhiều hệ thống khác nhau
- Tính toán có phải chỉnh sửa các hệ thống liên quan để đáp ứng yêu cầu nghiệp vụ
3. Thiết kế Data Warehouse
- Sau khi lựa chọn mô hình Ngôi sao hoặc Thiên hà(Bông tuyết) với các lưu ý
- Các bảng dimension được sử dụng để mô tả dữ liệu mà chúng ta muốn lưu trữ. Ví dụ: một nhà bán lẻ muốn lưu trữ thời gian, cửa hàng, và nhân viên tham gia vào một hoá đơn. Mỗi một bảng dimension là một danh mục của chính nó (ngày tháng, nhân viên, cửa hàng) và có thể có một hoặc nhiều thuộc tính (attributes). Với mỗi một cửa hàng, chúng ta lưu chúng các thông tin như vị trí trong thành phố, vùng miền, tỉnh thành và quốc gia. Mỗi một ngày tháng chúng ta lưu năm, tháng, ngày trong tháng, ngày trong tuần…Điều này liên quan đến sự phân cấp của các thuộc tính trong bảng dimension.
- Bảng Fact chứa dữ liệu mà chúng ta muốn thêm vào reports, tổng hợp trên các giá trị trong các bảng dimension. Một bảng fact chỉ có các cột lưu giá trị và các cột khóa ngoại tham chiếu đến bảng dimensions. Kết hợp tất cả các khóa ngoại và khoá chính trong bảng fact. Ví dụ, một bảng fact có thể lưu trữ một số lượng các hợp đồng và số lượng các nhân viên bán hàng từ các danh sách hợp đồng.
4. Xây dựng ETL
ELT là từ viết tắt cho Extract (Trích xuất), Load (Tải lên), and Transform (Chuyển đổi).
Data pipeline dành cho ELT sẽ bao gồm quy trình 3 bước được thực hiện ngay trên dữ liệu, gồm có:
Extract (Trích xuất): Việc trích xuất các dữ liệu là quá trình xác định và trích xuất các dữ liệu cần thiết, từ một hoặc nhiều nguồn khác nhau, như database, file, archives, ERP, CRM, v.v.
Load (Tải lên): Quy trình này sẽ bao gồm việc tải các dữ liệu được trích xuất sẽ được lên các database xác định.
Transform (Chuyển đổi): Chuyển đổi dữ liệu chính là quy trình chuyển đổi các dữ liệu từ hình thức cũ trên hệ thống nguồn sang hình thức mới, để phù hợp cho việc phân tích dữ liệu.
Việc chuyển đổi này thường dựa trên nhu cầu phân tích và sử dụng dữ liệu trong kho dữ liệu mục tiêu.
Mặc dù việc chuyển đổi các dữ liệu có thể diễn ra dưới nhiều hình thức khác nhau, nhưng đa phần là nó sẽ bao gồm việc biến các dữ liệu dưới dạng dữ liệu thô trở thành các dữ liệu có thể sử dụng được, dưới dạng dữ liệu thô và bảng tìm kiếm.
Các ví dụ cho việc chuyển đổi dữ liệu:
Biến đổi dữ liệu thô trở thành giá trị
Tổng hợp số liệu
Áp dụng các tính năng tính toán
Chuyển đổi hình thức dữ liệu
Điều chỉnh độ dài văn bản
Kết hợp dữ liệu từ các bảng số liệu và database khác nhau
5. Phát triển báo cáo và sử dụng cac công cụ BI
- Chỉnh sửa và hiệu chỉnh theo yêu cầu sử dụng
6. Lên kế hoạch thực thi ETL
- Dưa vào yêu cầu nghiệp vụ, và ảnh hưởng việc thực thi ETL ảnh hưởng tới các hệ thống OLTP, xây dựng chính sách quy trình thực thi ETL
- Việc này phải cân đối giữa yêu cầu nghiệp vụ và ảnh hưởng tới các hệ thống OLTP trong quá trình chạy ETL
7. Test trên hệ thống DEV hoặc Stag
- Chỉnh sửa và hiệu chỉnh
8. Triển khai hệ thống Production
- Theo quy trình quản lý triển khai của từng đơn vị
Kinh nghiệm triển khai
2. Bestbuy
4. Chính quyền điện tử thành phố Đà Nẵng
5. Dịch vụ công Bộ Giao thông Vận tải
Phát triển, hỗ trợ tư vấn cho nhiều đơn vị có các dự án làm Datawarehouse