數(shù)據(jù)質(zhì)量成熟度模型中分析數(shù)據(jù)準(zhǔn)備的五個級別:
第1級:數(shù)據(jù)來源。了解數(shù)據(jù)來自哪里、如何收集、如何轉(zhuǎn)換、為什么以及由誰轉(zhuǎn)換,是任何可用數(shù)據(jù)集的最基本要求。
第2級:基本衛(wèi)生。在這個級別,團(tuán)隊關(guān)注的是基本數(shù)據(jù)元素的統(tǒng)一表示。
第 3 級:異常值、混亂和不太可能的組合。第 3 級需要更深入的統(tǒng)計知識以及 DataOps 團(tuán)隊更深入的領(lǐng)域?qū)I(yè)知識。
第 4 級:覆蓋缺口。這尤其涉及識別所提供數(shù)據(jù)中的差距,并找到補(bǔ)充它們的方法。
第 5 級:偏見。在更高的層次上,運(yùn)行完全集成的項目團(tuán)隊,團(tuán)隊結(jié)合了數(shù)據(jù)科學(xué)、DataOps 和軟件工程師。人們每天都在同一個項目上工作,這樣可以發(fā)現(xiàn)和解決已經(jīng)“通過”所有先前級別的質(zhì)量門的數(shù)據(jù)中細(xì)微但關(guān)鍵的偏差。
了解此類問題的存在并有效解決這些問題需要數(shù)據(jù)科學(xué)家和 DataOps 專家之間持續(xù)進(jìn)行深入合作,這是生成機(jī)器學(xué)習(xí)模型或預(yù)測分析的必要條件,這些模型或預(yù)測分析不受未公開偏見的影響并經(jīng)受住現(xiàn)實(shí)世界的考驗(yàn)采用。