Quy tắc chất lượng dữ liệu có thể được phân loại dựa trên loại thử nghiệm.
- Kiểm tra chất lượng dữ liệu. Trường hợp "bình thường", kiểm tra dữ liệu trong một lớp kho dữ liệu (xem Hình 1) trong một bảng hoặc một tập hợp các bảng.
- Đối chiếu.Các quy tắc kiểm tra xem dữ liệu có được vận chuyển chính xác giữa các lớp kho dữ liệu hay không (xem Hình 1). Các quy tắc này chủ yếu được sử dụng để kiểm tra thứ nguyên DQ của “Tính đầy đủ”. Đối chiếu có thể sử dụng một hàng duy nhất hoặc một cách tiếp cận tóm tắt. Kiểm tra các hàng đơn lẻ chi tiết hơn nhiều, nhưng bạn sẽ phải tạo lại các bước chuyển đổi (lọc dữ liệu, thay đổi giá trị trường, không chuẩn hóa, nối, v.v.) giữa các lớp được so sánh. Bạn càng bỏ qua nhiều lớp, logic chuyển đổi phức tạp hơn phải được thực hiện. Do đó, lựa chọn tốt là thực hiện đối chiếu giữa mỗi lớp và lớp tiền nhiệm của nó thay vì so sánh hệ thống với lớp trung tâm dữ liệu. Nếu các phép biến đổi phải được thực hiện trong các quy tắc đối chiếu, hãy sử dụng đặc tả, không phải mã kho dữ liệu! Để đối chiếu tóm tắt, hãy tìm các trường có ý nghĩa (ví dụ:
- Giám sát. Kho dữ liệu thường chứa dữ liệu lịch sử và được tải với các trích xuất delta của dữ liệu hoạt động. Có nguy cơ gia tăng khoảng cách từ từ giữa kho dữ liệu và dữ liệu hoạt động. Xây dựng chuỗi dữ liệu thời gian tóm tắt giúp xác định các vấn đề như thế này (ví dụ: so sánh dữ liệu của tháng trước với dữ liệu của tháng hiện tại). Người dùng dữ liệu có kiến thức tốt về dữ liệu của họ có thể cung cấp các biện pháp hữu ích và ngưỡng cho các quy tắc giám sát.
Cách xác định vấn đề chất lượng dữ liệu
Khi bạn đã xác định những gì cần kiểm tra, bạn sẽ phải chỉ định cách định lượng các vấn đề đã xác định. Thông tin như "năm hàng dữ liệu vi phạm quy tắc DQ với ID 15" không có ý nghĩa gì đối với chất lượng dữ liệu.
Các phần sau bị thiếu:
- Làm thế nào để định lượng / đếm các lỗi được phát hiện. Bạn có thể đếm "số hàng", nhưng bạn cũng có thể sử dụng quy mô tiền tệ (ví dụ: hiển thị). Hãy nhớ rằng các giá trị tiền tệ có thể có các dấu hiệu khác nhau, vì vậy bạn sẽ phải điều tra cách tóm tắt chúng một cách có ý nghĩa. Bạn có thể cân nhắc sử dụng cả hai đơn vị định lượng (số hàng và tổng hợp) cho quy tắc chất lượng dữ liệu.
- Dân số. Số lượng đơn vị được kiểm tra bởi quy tắc chất lượng dữ liệu là bao nhiêu? “Năm hàng dữ liệu trong số năm hàng” có chất lượng khác với “năm hàng trong số 5 triệu”. Dân số phải được đo lường bằng cách sử dụng (các) định lượng tương tự như đối với các sai số. Thông thường, hiển thị kết quả của quy tắc chất lượng dữ liệu dưới dạng phần trăm. Tập hợp không được giống với số hàng trong bảng. Nếu quy tắc DQ chỉ kiểm tra một tập hợp con của dữ liệu (ví dụ: chỉ các hợp đồng đã chấm dứt trong bảng hợp đồng), thì bộ lọc tương tự sẽ được áp dụng để đo tổng thể.
- Định nghĩa kết quả. Ngay cả khi kiểm tra chất lượng dữ liệu tìm thấy vấn đề, điều này không phải lúc nào cũng gây ra lỗi. Đối với chất lượng dữ liệu, hệ thống đèn giao thông (đỏ, vàng, xanh lá cây) sử dụng các giá trị ngưỡng để xếp hạng các phát hiện là rất hữu ích. Ví dụ: xanh lục: 0-2%, vàng: 2-5%, đỏ: trên 5%. Hãy nhớ rằng nếu các đơn vị người dùng dữ liệu chia sẻ các quy tắc giống nhau, chúng có thể có các ngưỡng rất khác nhau cho một quy tắc nhất định. Một đơn vị kinh doanh tiếp thị có thể không ngại mất một vài đơn đặt hàng, trong khi một đơn vị kế toán có thể không quan tâm đến thậm chí là xu. Có thể xác định các ngưỡng trên phần trăm hoặc trên số liệu tuyệt đối.
- Thu thập các hàng lỗi mẫu. Sẽ hữu ích nếu quy tắc chất lượng dữ liệu cung cấp một mẫu các lỗi được phát hiện — thông thường, các khóa (kinh doanh!) Và các giá trị dữ liệu được kiểm tra là đủ để giúp kiểm tra lỗi. Bạn nên giới hạn số lượng hàng lỗi được viết cho quy tắc chất lượng dữ liệu.
- Đôi khi, bạn có thể tìm thấy "lỗi đã biết" trong dữ liệu sẽ không được sửa nhưng được tìm thấy bằng các kiểm tra chất lượng dữ liệu hữu ích. Đối với những trường hợp này, nên sử dụng danh sách trắng (khóa của các bản ghi cần được bỏ qua khi kiểm tra chất lượng dữ liệu).
Siêu dữ liệu khác
Siêu dữ liệu rất quan trọng để định tuyến “Phân tích” và giám sát các giai đoạn của vòng lặp kiểm soát chất lượng dữ liệu.
- Các mặt hàng đã kiểm tra. Nó giúp gán (các) bảng và (các) trường đã kiểm tra cho một quy tắc chất lượng dữ liệu. Nếu bạn có hệ thống siêu dữ liệu nâng cao, điều này có thể giúp tự động chỉ định người dùng dữ liệu và chủ sở hữu dữ liệu cho quy tắc này. Vì lý do quy định (chẳng hạn như BCBS 239), cũng cần chứng minh cách dữ liệu được kiểm tra bởi DQ. Tuy nhiên, việc tự động gán các quy tắc cho người dùng dữ liệu / chủ sở hữu dữ liệu thông qua dòng dữ liệu (*) có thể là con dao hai lưỡi (xem bên dưới).
- Người dùng dữ liệu. Mọi quy tắc DQ phải có ít nhất một người dùng dữ liệu / đơn vị người dùng dữ liệu được chỉ định để kiểm tra kết quả trong giai đoạn “Phân tích” và quyết định xem một phát hiện có ảnh hưởng đến công việc của họ với dữ liệu hay không.
- Chủ sở hữu dữ liệu. Mọi quy tắc DQ phải có chủ sở hữu dữ liệu được chỉ định.
(*) Dòng dữ liệu cho biết dòng dữ liệu giữa hai điểm. Với dòng dữ liệu, bạn có thể tìm thấy tất cả các yếu tố dữ liệu ảnh hưởng đến một trường mục tiêu nhất định trong kho của bạn.
Sử dụng dòng dữ liệu để chỉ định người dùng cho các quy tắc có thể là một vấn đề. Như đã đề cập trước đây, người dùng doanh nghiệp thường chỉ biết lớp data mart (và hệ điều hành), nhưng không biết các cấp thấp hơn của kho dữ liệu. Bằng cách ánh xạ qua dòng dữ liệu, người dùng dữ liệu sẽ được chỉ định các quy tắc mà họ không quen thuộc. Đối với các cấp thấp hơn, có thể cần nhân viên CNTT để đánh giá kết quả chất lượng dữ liệu. Trong nhiều trường hợp, ánh xạ thủ công hoặc cách tiếp cận hỗn hợp (ánh xạ qua dòng dữ liệu chỉ trong data mart) có thể hữu ích.
Đo lường chất lượng dữ liệu
Đo lường chất lượng dữ liệu có nghĩa là thực hiện các quy tắc chất lượng dữ liệu có sẵn, quy tắc này phải được thực hiện tự động , được kích hoạt bởi các quy trình tải của kho dữ liệu. Như chúng ta đã thấy trước đây, có thể có một số quy tắc chất lượng dữ liệu đáng chú ý, do đó, việc kiểm tra sẽ tốn thời gian.
Trong một thế giới hoàn hảo, một kho dữ liệu sẽ chỉ được tải nếu tất cả dữ liệu đều không có lỗi. Trong thế giới thực, điều này hiếm khi xảy ra (thực tế thì hầu như không bao giờ xảy ra). Tùy thuộc vào chiến lược tải tổng thể của kho dữ liệu của bạn, quy trình chất lượng dữ liệu nên hay không (quy trình sau có nhiều khả năng hơn) quy định quy trình tải. Đó là một thiết kế tốt để có các quy trình chất lượng dữ liệu (mạng công việc) song song và được liên kết với các quy trình tải kho dữ liệu “thông thường”.
Nếu có các thỏa thuận mức dịch vụ được xác định, hãy đảm bảo không cản trở việc tải kho dữ liệu bằng các kiểm tra chất lượng dữ liệu. Các lỗi / tồn tại trong quy trình chất lượng dữ liệu không được dừng quá trình tải thường xuyên. Các lỗi không mong muốn trong quy trình chất lượng dữ liệu phải được báo cáo và hiển thị cho giai đoạn “Phân tích” (xem chương tiếp theo).
Hãy nhớ rằng quy tắc chất lượng dữ liệu có thể gặp sự cố do lỗi không mong muốn (có thể bản thân quy tắc đã được triển khai sai hoặc cấu trúc dữ liệu cơ bản đã thay đổi theo thời gian). Sẽ hữu ích nếu hệ thống chất lượng dữ liệu của bạn cung cấp cơ chế hủy kích hoạt các quy tắc như vậy, đặc biệt nếu công ty của bạn có ít bản phát hành mỗi năm.
Các quy trình DQ phải được thực thi và báo cáo càng sớm càng tốt — đặc biệt là ngay sau khi tải dữ liệu được kiểm tra. Điều này giúp phát hiện lỗi sớm nhất có thể trong quá trình tải kho dữ liệu (một số tải hệ thống kho phức tạp có thời gian kéo dài vài ngày).
Phân tích
Trong ngữ cảnh này, "phân tích" có nghĩa là phản ứng với các phát hiện về chất lượng dữ liệu. Đây là nhiệm vụ dành cho người dùng dữ liệu được chỉ định và chủ sở hữu dữ liệu.
Cách phản ứng phải được xác định rõ ràng bởi dự án chất lượng dữ liệu của bạn. Người dùng dữ liệu phải có nghĩa vụ nhận xét về một quy tắc có phát hiện (ít nhất là quy tắc có đèn đỏ), giải thích những biện pháp đang được thực hiện để xử lý phát hiện. Chủ sở hữu dữ liệu cần được thông báo và nên quyết định cùng với (những) người dùng dữ liệu.
Có thể thực hiện các hành động sau:
- Sự cố nghiêm trọng: Sự cố phải được khắc phục và tải dữ liệu lặp lại.
- Sự cố có thể chấp nhận được: Cố gắng khắc phục sự cố để tải dữ liệu trong tương lai và xử lý sự cố trong kho dữ liệu hoặc báo cáo.
- Quy tắc DQ bị lỗi: Sửa quy tắc DQ có vấn đề.
Trong một thế giới hoàn hảo, mọi vấn đề về chất lượng dữ liệu sẽ được khắc phục. Tuy nhiên, thiếu nguồn lực và / hoặc thời gian thường dẫn đến các giải pháp.
Để có thể phản ứng kịp thời, hệ thống DQ phải thông báo cho người dùng dữ liệu về các quy tắc "của họ" với các phát hiện. Sử dụng trang tổng quan về chất lượng dữ liệu (có thể với việc gửi tin nhắn có nội dung nào đó) là một ý tưởng hay. Người dùng được thông báo về các phát hiện càng sớm thì càng tốt.
Trang tổng quan về chất lượng dữ liệu phải chứa:
- Tất cả các quy tắc được chỉ định cho một vai trò nhất định
- Kết quả của quy tắc (đèn giao thông, số đo và hàng mẫu) với khả năng lọc quy tắc theo kết quả và miền dữ liệu
- Một nhận xét bắt buộc mà người dùng dữ liệu phải nhập cho các phát hiện
- Một tính năng tùy chọn "ghi đè" kết quả (ví dụ: nếu quy tắc chất lượng dữ liệu báo cáo lỗi do triển khai bị lỗi). Nếu nhiều đơn vị kinh doanh được chỉ định cùng một quy tắc chất lượng dữ liệu, thì "overruling" chỉ hợp lệ cho đơn vị kinh doanh của người dùng dữ liệu (không phải toàn bộ công ty).
- Hiển thị các quy tắc không được thực thi hoặc bị hủy bỏ
Trang tổng quan cũng phải hiển thị trạng thái hiện tại của quá trình tải kho dữ liệu gần đây, cung cấp cho người dùng cái nhìn 360 độ về quá trình tải kho dữ liệu.
Chủ sở hữu dữ liệu có trách nhiệm đảm bảo rằng mọi phát hiện đều được nhận xét và trạng thái của chất lượng dữ liệu (nguyên bản hoặc bị kiểm duyệt) ít nhất là màu vàng đối với tất cả người dùng dữ liệu.
Để có cái nhìn tổng quan nhanh chóng, sẽ giúp xây dựng một loại KPI (chỉ số hiệu suất chính) đơn giản cho người dùng dữ liệu / chủ sở hữu dữ liệu. Việc có một đèn giao thông tổng thể cho tất cả các kết quả của các quy tắc liên quan là khá dễ dàng nếu mỗi quy tắc có cùng trọng số.
Cá nhân tôi nghĩ rằng việc tính toán một giá trị tổng thể về chất lượng dữ liệu cho một miền dữ liệu nhất định là khá phức tạp và có xu hướng mang tính cabal, nhưng ít nhất bạn có thể hiển thị số lượng quy tắc tổng thể được nhóm theo kết quả cho một miền dữ liệu (ví dụ: “100 quy tắc DQ với 90% màu xanh lá cây, 5% màu vàng và 5% màu đỏ ”).
Nhiệm vụ của chủ sở hữu dữ liệu là đảm bảo rằng các phát hiện sẽ được khắc phục và cải thiện chất lượng dữ liệu.
Không có nhận xét nào