Mae data mawr yn cyfeirio at setiau data sy'n rhy fawr neu'n rhy gymhleth ar gyfer meddalwedd prosesu data traddodiadol. I ddelio â chronfa ddata enfawr, gyda miliynnau o resi a cholofnau ynddi, yna mae angen ateb gwahanol. Mwya'r data, y mwya yw'r gwallau a all godi, ac arafa mae'n prosesu'r wybodaeth.[1]

Mae heriau sy'n wynebu ceidwaid data mawr yn cynnwys casglu data, integreiddio data, storio data, dadansoddi data, chwilio, cloddio, glanhau, rhannu, trosglwyddo, delweddu (visualization), ymholi, diweddaru a gwarchod data. Roedd data mawr yn gysylltiedig yn wreiddiol â thri chysyniad allweddol: cyfaint, amrywiaeth a chyflymder.[2] Ceir cysyniadau eraill, gwirioneddol a briodwyd yn ddiweddarach e.e. faint o sŵn (neu 'wallau') sydd yn y data, a gwerth y data.[3][4]

Y cynnydd yng nghyfaint y data 2009-2020

Ymddangosodd y term ar ffurf ffasiynol, fel buzzword yng nghanol y 2010au, i olygu 'yr holl ddata a gesglir gan y ddynoliaeth'. Fe'i bathwyd gan John Mashey yn 1998.[5][6] Ar lefel fwy technegol, daeth y term i olygu'r dadansoddi rhagfynegol ac ymddygiad defnyddwyr a chwsmeriaid. Sylweddolwyd fod defnydd masnachol i ddata fel hyn, ac y gellid rhagweld yr hyn roedd y cwsmer yn dymuno ei brynnu. Ymhlith y defnydd eraill a wneir o ddata mawr y mae: rhagweld afiechydon a sut y mae heintiau'n ymledu neu casglu holl gofnodion dyddiol yr hinsawdd, meteoroleg, daeargrynfeydd ayb. Ond y defnydd mwayf sinistr o ddata mawr yw gan heddluoedd cudd, ac adrannau 'diogelwch' llywodraethau'r byd, er mwyn iddynt fonitro tuedd (ymweld â gwefannau, siopau ayb), diddordebau gwleidyddol a manylion personol eraill eu dinasyddion.[7][8] Un o'r cwestiynau pwysicaf yma, yw pwy yw perchennog y data personol hwn.

Gwelwyd y twf a'r cynnydd eithriadol yng nghyfaint data mawr ar ddechrau'r 2000au, wrth i ddyfeisiau Rhyngrwyd pethau ddod o fewn gafael dinasyddion y byd. Daeth y ffôn clyfar, y tabled, camerâu, y cerdyn banc a llu o synwyryddion eraill yn bethau rhad, defnyddiol, ffasiynol a ddefnyddiwyd droeon mewn diwrnod, a'r data ohonynt yn cysylltu'n uniongyrchol i ddata mawr adrannau cudd y llywodraethau a chwmniau enfawr fel Google.

Law yn llaw a'r gallu hwn i gasglu data, datblygodd y gallu i'w storio. Yn fras, mae'r wybodaeth a gaiff ei storio yn dyblu bob 40 mis, ers y 1980au. Erbyn 20122 roedd 2.5 exabytes (2.5×1018) o ddata'n cael ei gynhyrchu yn fydeang. Rhagwelodd Adroddiad gan yr IDC bydd y twf hwn yn parhau ac yn cyflymu, ac erbyn 2020 roedd yn rhagweld y byddai cyfaint y data yn 44 zettabytes; erbyn 2025 mae'n rhagweld y bydd yn 163 zettabytes.

Cyfeiriadau

golygu
  1. Breur, Tom (July 2016). "Statistical Power Analysis and the contemporary "crisis" in social sciences". Journal of Marketing Analytics 4 (2-3): 61–65. doi:10.1057/s41270-016-0001-3. ISSN 2050-3318. https://link.springer.com/article/10.1057/s41270-016-0001-3.
  2. Laney, Doug (2001). "3D data management: Controlling data volume, velocity and variety". META Group Research Note 6 (70).
  3. Goes, Paulo B. (2014). "Design science research in top information systems journals". MIS Quarterly: Management Information Systems 38 (1): –.
  4. Marr, Bernard (6 Mawrth 2014). "Big Data: The 5 Vs Everyone Must Know".
  5. John R. Mashey (25 April 1998). "Big Data ... and the Next Wave of InfraStress" (PDF). Slides from invited talk. Usenix. Cyrchwyd 28 Medi 2016.
  6. Steve Lohr (1 Chwefror 2013). "The Origins of 'Big Data': An Etymological Detective Story". The New York Times. Cyrchwyd 28 Medi 2016.
  7. boyd, dana; Crawford, Kate (21 Medi 2011). "Six Provocations for Big Data". Social Science Research Network: A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society. doi:10.2139/ssrn.1926431.
  8. "Community cleverness required". Nature 455 (7209): 1. 4 Medi 2008. Bibcode 2008Natur.455....1.. doi:10.1038/455001a. PMID 18769385. http://www.nature.com/nature/journal/v455/n7209/full/455001a.html.