Glanhau data
Proses o lanhau neu "olchi" gwybodaeth yw glanhau data, a hynny o fewn y maes a elwir yn rheoli data. Gall y wybodaeth hon fod ar ffurf set o gofnodion testun neu rif, cronfa ddata, taenlen neu dabl. Gall y broses gynnwys nodi rhannau anghyflawn o ddata, anghywir, lled-anghywir neu amherthnasol; yr ail gam, wedi hyn yw addasu neu ddisodli gwallau o fewn y "data budr" gyda'r wybodaeth gywir. Yn aml, defnyddir botiau i gywiro'r gwaith gyda sgriptiau a chod pwrpasol.[1]
Ar ôl glanhau'r data, dylai'r daenlen neu'r set ddata fod yn gyson â setiau data tebyg o fewn y cwmni neu'r sefydliad. Gall yr anghysondebau a ganfuwyd neu a gafodd eu tynnu gael eu hachosi yn wreiddiol gan ddefnyddwyr, trwy lygredd mewn trosglwyddiad neu drwy storio, neu gan ddiffiniadau geiriaduron gwahanol. Mae glanhau data yn wahanol i ddilysu data; mae dilysu data'n digwydd wrth i'r defnyddiwr fewnbynnu gwybodaeth i mewn i'r system. Er enghraifft gall y dilysu wrthod ymgais gan ddefnyddiwr i fewnbynnu cod post neu e-bost anghywir.
Bydd rhai datrysiadau glanhau data yn glanhau data trwy groeswirio gyda set ddata sydd wedi ei ddilysu. Un o'r arferion glanhau data mwyaf cyffredin o wella data, yw'r arfer o wella'r data, ei wneud yn fwy cyflawn trwy ychwanegu gwybodaeth gysylltiedig. Er enghraifft, atodi cyfeiriadau gydag unrhyw rifau ffôn sy'n gysylltiedig â'r cyfeiriad hwnnw. Gall glanhau data hefyd gynnwys gweithgareddau fel cysoni data a safoni data. Er enghraifft, cysoni codau byr (st, ff, ac ati) i eiriau cyflawn (stryd, ffordd, ac ati). Mae safoni data yn fodd o newid data cyfeirio a osodir i safon newydd.
Teclynnau
golyguCeir nifer o declynnau pwrpasol ar gyfer y gwaith o olchi data e.e. Trifacta, OpenRefine, Paxata, Alteryx. Ceir hefyd llyfrgelloedd yn sylfaen i'r glanhau e.e. Pandas ar gyfer Python (iaith codio) a Dplyr ar gyfer R. O fewn Apache Spark, ceir Optimus, sy'n god-agored.
Ar y Wicipedia Cymraeg, defnyddir y porwr AWB (Auto Wiki Browser) gan ddefnyddwyr i gywiro iaith a chod.
Cyfeiriadau
golygu- ↑ Wu, S. (2013), "A review on coarse warranty data and analysis", Reliability Engineering and System 114: 1–11, doi:10.1016/j.ress.2012.12.021, http://www.sciencedirect.com/science/article/pii/S0951832013000100