Header Ads

  • Breaking News

    Cách triển khai Quy trình Chất lượng Dữ liệu

    Chất lượng dữ liệu (DQ) trong hệ thống kho dữ liệu ngày càng trở nên quan trọng hơn. Các yêu cầu quy định ngày càng tăng, nhưng sự phức tạp ngày càng tăng của các giải pháp kho dữ liệu , buộc các công ty phải tăng cường (hoặc bắt đầu) một sáng kiến ​​về chất lượng dữ liệu.
    Trọng tâm chính của bài viết này sẽ là kho dữ liệu “truyền thống”, nhưng chất lượng dữ liệu cũng là một vấn đề trong các khái niệm “hiện đại” hơn như hồ dữ liệu. Nó sẽ chỉ ra một số điểm chính cần xem xét và một số cạm bẫy phổ biến cần tránh khi thực hiện chiến lược chất lượng dữ liệu. Nó không bao gồm phần lựa chọn công nghệ / công cụ phù hợp để xây dựng khung DQ.
    Một trong những vấn đề cản trở nhất của dự án DQ là thực tế là ngay từ cái nhìn đầu tiên, nó tạo ra rất nhiều công việc cho các đơn vị kinh doanh mà không cung cấp thêm bất kỳ chức năng nào. Một sáng kiến ​​về chất lượng dữ liệu thường chỉ có những người ủng hộ mạnh mẽ nếu:
    • Có vấn đề về chất lượng dữ liệu có tác động nghiêm trọng đến hoạt động kinh doanh.
    • Các cơ quan quản lý thực thi các tiêu chuẩn chất lượng dữ liệu (ví dụ: BCBS 239 trong ngành tài chính).
    Cách xử lý của DQ tương tự như cách xử lý của kiểm thử trong phát triển phần mềm — nếu một dự án hết thời gian và / hoặc ngân sách, thì phần này có xu hướng giảm đi trước.
    Tất nhiên, đây không phải là toàn bộ sự thật. Một hệ thống chất lượng dữ liệu tốt giúp phát hiện sớm các lỗi, do đó đẩy nhanh quá trình cung cấp dữ liệu có chất lượng “đủ tốt” cho người dùng.

    Định nghĩa Điều khoản

    Trước khi thảo luận về chủ đề, sự hiểu biết chung về các thuật ngữ được sử dụng là rất quan trọng.

    Kho dữ liệu (DWH)

    Một kho dữ liệu (DWH) là một hệ thống không hoạt động chủ yếu được sử dụng để hỗ trợ quyết định. Nó hợp nhất dữ liệu của các hệ thống hoạt động (tất cả chúng hoặc một tập hợp con nhỏ hơn) và cung cấp dữ liệu được tối ưu hóa truy vấn cho người dùng của hệ thống DWH. Kho dữ liệu phải cung cấp “một phiên bản sự thật duy nhất” trong doanh nghiệp. Kho dữ liệu thường được xây dựng từ các giai đoạn / lớp:
    Các lớp kho dữ liệu chung
    Hình 1: Các lớp kho dữ liệu chung.
    Dữ liệu hoạt động được lưu trữ hầu như không thay đổi vào một lớp dàn . Lớp lõi chứa dữ liệu hợp nhất và hợp nhất. Giai đoạn tùy chọn tiếp theo là khu vực dẫn xuất , cung cấp dữ liệu dẫn xuất (ví dụ: điểm số của khách hàng cho doanh số bán hàng) và tổng hợp. Lớp data mart chứa dữ liệu được tối ưu hóa cho một nhóm người dùng nhất định. Data mart thường chứa các tổng hợp và rất nhiều số liệu bắt nguồn. Người dùng kho dữ liệu thường chỉ làm việc với lớp data mart.
    Giữa mỗi giai đoạn, một số loại chuyển đổi dữ liệu diễn ra. Thông thường, một kho dữ liệu được tải theo định kỳ với các trích xuất delta của dữ liệu hoạt động và chứa các thuật toán để giữ dữ liệu lịch sử.

    Chất lượng dữ liệu

    Chất lượng dữ liệu thường được định nghĩa là một thước đo về mức độ đáp ứng các yêu cầu của người dùng. Những người dùng khác nhau có thể có các yêu cầu khác nhau đối với một sản phẩm nên việc triển khai phụ thuộc vào quan điểm của người dùng và điều quan trọng là phải xác định được những nhu cầu này.
    Chất lượng dữ liệu không có nghĩa là dữ liệu phải hoàn toàn hoặc gần như không có lỗi - nó phụ thuộc vào yêu cầu của người dùng. Một cách tiếp cận “đủ tốt” là một lựa chọn tốt để bắt đầu. Ngày nay, các công ty lớn hơn có “chính sách của chính phủ về dữ liệu (hoặc thông tin)” và chất lượng dữ liệu là một phần của nó. Một chính sách của chính phủ dữ liệu nên mô tả cách giao dịch công ty của bạn với dữ liệu và làm thế nào nó làm cho chắc chắn rằng dữ liệu có chất lượng đúng và quy tắc riêng tư dữ liệu không được vi phạm.
    Chất lượng dữ liệu là một chủ đề đang diễn ra. Một vòng mạch DQ phải được thực hiện (xem chương tiếp theo). Các yêu cầu quản lý và quy tắc tuân thủ cũng có tác động đến chất lượng dữ liệu cần thiết, chẳng hạn như TCPA (Đạo luật bảo vệ người tiêu dùng qua điện thoại của Hoa Kỳ) hoặc GDPR ở Châu Âu đối với các vấn đề về quyền riêng tư, cũng như các quy tắc dành riêng cho ngành như Solvency II cho bảo hiểm ở EU, BCBS 239 và những người khác cho ngân hàng, v.v.

    Vòng lặp mạch chất lượng dữ liệu

    Như với tất cả các chủ đề chất lượng, DQ là một hoạt động liên tục được thiết kế để duy trì chất lượng đạt yêu cầu. Kết quả của một dự án DQ, một vòng mạch tương tự như bên dưới phải được thực hiện:
    Chất lượng dữ liệu mạch lặp
    Hình 2: Vòng mạch chất lượng dữ liệu.
    Các bước trong vòng lặp này sẽ được mô tả trong các chương tiếp theo.

    Vai trò chất lượng dữ liệu

    Để thực hiện một sáng kiến ​​DQ thành công, cần có các vai trò sau:
    • Chủ sở hữu dữ liệu. Chủ sở hữu dữ liệu chịu trách nhiệm về chất lượng dữ liệu, cũng như bảo vệ quyền riêng tư của dữ liệu. Chủ sở hữu dữ liệu “sở hữu” miền dữ liệu, kiểm soát quyền truy cập và chịu trách nhiệm đảm bảo chất lượng dữ liệu và thực hiện hành động để khắc phục các phát hiện. Trong các tổ chức lớn hơn, việc tìm thấy một số chủ sở hữu dữ liệu là điều thường thấy. Các miền dữ liệu có thể là, ví dụ: dữ liệu tiếp thị, dữ liệu kiểm soát, v.v. Nếu có nhiều chủ sở hữu dữ liệu trong một công ty, thì phải có một người (chủ sở hữu dữ liệu hoặc người khác) chịu trách nhiệm về quy trình chất lượng dữ liệu tổng thể. Chủ sở hữu dữ liệu phải có quyền hạn mạnh mẽ để thực thi chất lượng dữ liệu và hỗ trợ quy trình DQ; do đó, chủ sở hữu dữ liệu thường là các bên liên quan cấp cao. Hiểu biết tốt về lĩnh vực kinh doanh cùng với kỹ năng giao tiếp tốt là rất quan trọng.
    • Quản lý dữ liệu. Người quản lý dữ liệu giúp thực hiện chất lượng dữ liệu trong doanh nghiệp, hỗ trợ người dùng dữ liệu về các câu hỏi về cách diễn giải dữ liệu / mô hình dữ liệu, các vấn đề về chất lượng dữ liệu, v.v. Người quản lý dữ liệu thường là nhân viên của chủ sở hữu dữ liệu hoặc có thể được tổ chức trong trung tâm năng lực chất lượng dữ liệu hoặc một đội DQ. Người quản lý dữ liệu có thể có kiến ​​thức nền tảng về CNTT hoặc kinh doanh nhưng nên biết cả hai mặt. Kỹ năng phân tích cùng với sự hiểu biết tốt về lĩnh vực kinh doanh mà họ hỗ trợ, kết hợp với kỹ năng giao tiếp mạnh mẽ, là những điều kiện tiên quyết chính cho một người quản lý dữ liệu thành công.
    • Người dùng dữ liệu. Đây là những người dùng kho dữ liệu làm việc với dữ liệu. Người dùng dữ liệu thường làm việc với lớp data mart và chịu trách nhiệm về kết quả công việc với dữ liệu. Người dùng dữ liệu đảm bảo có đầy đủ các kiểm tra chất lượng dữ liệu cho mức chất lượng mà họ cần. Người dùng dữ liệu cần hiểu rõ về dữ liệu, lĩnh vực kinh doanh của họ và các kỹ năng phân tích cần thiết để diễn giải dữ liệu. Sẽ là hợp lý khi tìm một vài người trong số những người dùng dữ liệu ở mọi đơn vị kinh doanh, những người sẽ chịu trách nhiệm về các vấn đề chất lượng dữ liệu.
    Để đảm bảo thành công, điều quan trọng là phải xác định rõ ràng các vai trò này và được chấp nhận rộng rãi trong tổ chức của bạn trong giai đoạn đầu của dự án DQ của bạn. Điều quan trọng không kém là tìm các chuyên gia dữ liệu có năng lực cho những vai trò hỗ trợ dự án này.

    Xác định các quy tắc

    Tìm và triển khai các quy tắc / kiểm tra DQ hữu ích . Việc xác định các quy tắc DQ đòi hỏi bạn phải hiểu rõ về kho dữ liệu của bạn và việc sử dụng nó.

    Làm thế nào để Tìm Quy tắc DQ?

    Như đã thảo luận trước đó, người dùng dữ liệu (và chủ sở hữu dữ liệu) chịu trách nhiệm về việc sử dụng dữ liệu và do đó cũng phải có mức chất lượng dữ liệu cần thiết. Người dùng dữ liệu nên hiểu rõ về dữ liệu của họ để họ có thể đưa ra đầu vào tốt nhất cho các quy tắc hữu ích về chất lượng dữ liệu.
    Họ cũng là những người phân tích kết quả của các quy tắc chất lượng dữ liệu, vì vậy luôn là một ý kiến ​​hay nếu để họ tự xác định các quy tắc của riêng mình. Điều này nâng cao hơn nữa sự chấp nhận để kiểm tra và xếp hạng kết quả của các quy tắc DQ được chỉ định cho một đơn vị người dùng dữ liệu (xem chương “Phân tích”).
    Hạn chế của cách tiếp cận này là người dùng dữ liệu thường chỉ biết lớp data mart, không phải các lớp trước đó của kho dữ liệu. Nếu dữ liệu bị hỏng ở các giai đoạn "thấp hơn", điều này sẽ không được phát hiện bằng cách chỉ kiểm tra lớp "trên cùng" của kho dữ liệu của bạn.

    Xử lý lỗi

    Những loại lỗi đã biết nào có thể xảy ra trong kho dữ liệu?
    • Logic chuyển đổi sai trong kho dữ liệu
      • Bối cảnh CNTT của bạn càng phức tạp, thì logic chuyển đổi càng có xu hướng phức tạp. Đây là những vấn đề DQ phổ biến nhất và ảnh hưởng của những lỗi như vậy có thể là dữ liệu "bị mất", trùng lặp, giá trị không chính xác, v.v.
    • Quá trình tải không ổn định hoặc xử lý tải sai
      • Việc tải một kho dữ liệu có thể là một quá trình phức tạp có thể bao gồm các lỗi trong định nghĩa của việc điều phối công việc (công việc bắt đầu quá sớm hoặc quá muộn, công việc không được thực hiện, v.v.). Lỗi do can thiệp thủ công (ví dụ: một số công việc bị bỏ qua, một số công việc được bắt đầu với ngày đến hạn sai hoặc với các tệp dữ liệu của ngày hôm qua) thường xảy ra khi quá trình tải hết băng do một số gián đoạn.
    • Chuyển dữ liệu sai nguồn dữ liệu
      • Truyền dữ liệu thường được thực hiện như một nhiệm vụ của hệ thống nguồn. Sự bất thường hoặc gián đoạn trong quy trình công việc có thể gây ra việc cung cấp dữ liệu trống hoặc không đầy đủ.
    • Dữ liệu hoạt động sai
      • Dữ liệu trong hệ thống hoạt động có lỗi chưa được nhận dạng cho đến nay. Nghe có vẻ lạ, nhưng có rất nhiều dự án kho dữ liệu mà chất lượng của dữ liệu hoạt động thường không được nhìn thấy cho đến khi dữ liệu được đưa vào DWH.
    • Hiểu sai dữ liệu
      • Dữ liệu là đúng, nhưng người dùng không biết làm thế nào để diễn giải nó đúng. Đây là một “lỗi” rất phổ biến, không hoàn toàn là vấn đề chất lượng dữ liệu mà là vấn đề liên quan đến quản trị dữ liệu và là nhiệm vụ của những người quản lý dữ liệu.
    Những vấn đề này thường do mọi người thiếu bí quyết và kỹ năng thích hợp để xác định, triển khai, chạy và làm việc với một giải pháp kho dữ liệu.

    Thứ nguyên chất lượng dữ liệu

    Kích thước DQ là một cách phổ biến để xác định và phân cụm các kiểm tra DQ. Có nhiều định nghĩa và số thứ nguyên thay đổi đáng kể: Bạn có thể tìm thấy 16 thứ nguyên hoặc thậm chí nhiều thứ nguyên hơn. Từ góc độ thực tế, sẽ bớt bối rối hơn nếu bắt đầu với một vài thứ nguyên và tìm hiểu chung về chúng giữa những người dùng của bạn.
    • Tính đầy đủ: Tất cả dữ liệu được yêu cầu có sẵn và có thể truy cập được không? Tất cả các nguồn cần thiết có sẵn và được tải không? Dữ liệu có bị mất giữa các giai đoạn không?
    • Tính nhất quán: Có dữ liệu sai sót / xung đột / không nhất quán không? Ví dụ: ngày chấm dứt hợp đồng ở trạng thái "Đã chấm dứt" phải có ngày có hiệu lực cao hơn hoặc bằng ngày bắt đầu của hợp đồng.
    • Tính duy nhất: Có bất kỳ bản sao nào không?
    • Tính toàn vẹn: Tất cả dữ liệu có được liên kết chính xác không? Ví dụ: có các đơn đặt hàng liên kết đến ID khách hàng không tồn tại (một vấn đề toàn vẹn tham chiếu cổ điển) không?
    • Tính kịp thời: Dữ liệu có hiện hành không? Ví dụ: trong kho dữ liệu với các bản cập nhật hàng ngày, tôi sẽ mong đợi dữ liệu của ngày hôm qua có sẵn ngày hôm nay.
    Dữ liệu được tạo ra bởi quá trình tải kho dữ liệu cũng có thể hữu ích.
    • Các bảng có dữ liệu bị loại bỏ. Kho dữ liệu của bạn có thể có các quy trình để bỏ qua / trì hoãn dữ liệu không thể tải do các vấn đề kỹ thuật (ví dụ: chuyển đổi định dạng, thiếu các giá trị bắt buộc, v.v.).
    • Thông tin ghi nhật ký. Các vấn đề đáng chú ý có thể được ghi vào bảng ghi nhật ký hoặc tệp nhật ký.
    • Hóa đơn giao hàng. Một số hệ thống sử dụng “hóa đơn giao hàng” cho dữ liệu do hệ thống vận hành cung cấp (ví dụ: số lượng bản ghi, số khóa riêng biệt, tổng giá trị). Chúng có thể được sử dụng để kiểm tra đối chiếu (xem bên dưới) giữa kho dữ liệu và hệ thống hoạt động.
    Hãy nhớ rằng mỗi lần kiểm tra chất lượng dữ liệu phải được phân tích bởi ít nhất một người dùng dữ liệu (xem chương “Phân tích”) trong trường hợp phát hiện ra lỗi, bạn sẽ cần một người có trách nhiệm và sẵn sàng kiểm tra sau mỗi lần kiểm tra được triển khai.
    Trong một kho dữ liệu phức tạp, bạn có thể kết thúc với nhiều (đôi khi hàng nghìn) quy tắc DQ. Quá trình thực thi các quy tắc chất lượng dữ liệu phải đủ mạnh và nhanh để xử lý việc này.
    Đừng kiểm tra các sự kiện được đảm bảo bằng cách triển khai kỹ thuật Ví dụ: nếu dữ liệu được lưu trữ trong DBMS quan hệ, thì không cần thiết phải kiểm tra xem:
    • Các cột được xác định là bắt buộc chứa giá trị NULL.
    • (Các) giá trị trường khóa chính là duy nhất trong một bảng.
    • Không có khóa ngoại nào hiện có trong bảng đã bật kiểm tra tính toàn vẹn quan hệ.
    Điều đó nói rằng, hãy luôn nhớ rằng kho dữ liệu luôn thay đổi và định nghĩa dữ liệu của các trường và bảng có thể thay đổi theo thời gian.
    Công việc dọn phòng là rất quan trọng. Các quy tắc được xác định bởi các đơn vị người dùng dữ liệu khác nhau có thể trùng lặp và cần được hợp nhất. Tổ chức của bạn càng phức tạp thì càng cần nhiều công việc quản lý hơn. Chủ sở hữu dữ liệu nên thực hiện quá trình hợp nhất quy tắc như một loại “chất lượng dữ liệu cho các quy tắc chất lượng dữ liệu”. Ngoài ra, việc kiểm tra chất lượng dữ liệu có thể trở nên vô ích nếu dữ liệu không còn được sử dụng hoặc nếu định nghĩa của nó đã thay đổi.

    Không có nhận xét nào

    Post Top Ad

    ad728

    Post Bottom Ad

    ad728