Integreiddio data

Mae cyfuno data neu integreiddio data yn golygu cyfuno data a leolir mewn gwahanol lefydd, ac yn rhoi trosolwg 'unedig' i'r defnyddiwr.[1] Mae'r broses o integreiddio (neu 'gyfuno') data'n ddefnyddiol mewn amrywiaeth o sefyllfaoedd, gan gynnwys y defnydd masnachol (megis pan fydd angen i ddau gwmni tebyg uno eu cronfeydd data) a gwyddonol - gan gyfuno canlyniadau ymchwil o wahanol labordai, er enghraifft. Cynyddodd y defnydd o gyfuno data yn ystod y 2000au a'r 2010au oherwydd anferthedd y data (hynny yw, 'data mawr') a'r angen i rannu data sy'n bodoli'n barod.[2] Daeth yn ganolbwynt gwaith damcaniaethol helaeth mewn prifysgolion a chyrff eraill, ac yn 2019 roedd llawer o broblemau heb eu datrys. Mae cyfuno data yn annog cydweithio rhwng defnyddwyr mewnol y cwmnioedd a'r sefydliadau, yn ogystal â defnyddwyr allanol.

Hanes cynnar golygu

Mae cyfrifiadurwyr yn wynebu llawer o sialensau pan gyfunir ffynonellau-data amrywiol oyn yr hyn a elwir yn "seilos gwybodaeth", yn enwedig pan ddefnyddir y dull a elwir yn "rhyngwyneb ymholiad sengl" (single query interface), sydd wedi bodoli ers cryn amser. Yn y 1980au cynnar, dechreuodd cyfrifiadurwyr gynllunio systemau er mwyn cyfuno gwahanol fathau o gronfeydd data.[3] Credir i'r system gyfuno data cyntaf gael ei gynllunio ym Mhrifysgol Minnesota yn 1991 ar gyfer yr Integrated Public Use Microdata Series (IPUMS). Fe wnaethon nhw ddefnyddio archifdai data (neu'r 'warws ddata') yn eu cynlluniau, dull a oedd yn cynnwys ETL, sef Echdynnu, Trawsnewid a Llwytho data o'r ffynonellau amrywiol i mewn i un sgema, er mwyn iddynt fod yn gydnaws â'i gilydd.[4] Gan gymhathu cannoedd o gronfeydd data, fel hyn, dangosodd IPUMS ddichonoldeb integreiddio data mawr. Oherwydd fod yr holl ddata o dan yr un to, roedd archwilio a'i ymholi yn syml a chyflym.[5]

Man gwan y dull hwn yw fod diweddaru'r data'n gymhleth.

Yn araf, trodd cyfrifiadurwyr at ddull gwahanol, a oedd yn ffafrio llacio'r cysylltiadau rhwng y data a darparu 'rhyngwyneb ymholiad sengl' i gael mynediad byw i'r data dros sgemâu cyfryngol (mediated schema) . roedd hyn yn caniatáu i bob ymholiad archwilio'r gronfa ddata berthnasol yn uniongyrchol. Roedd hyn hefyd yn gyson à'r dull SOA (Service-oriented architecture) a oedd hefyd mewn bri yr adeg honno, a olygai mapio rhwng y sgemâu cyfryngol a'r sgema gwreiddiol. Fel hyn, trawsnewidiwyd yr ymholiad i sawl ymholiad a oedd wedi'u haddasu i'r sgema gwreiddiol, unigol. Dull a elwid yn "Global As View" (GAV).

Diffiniad golygu

Mae systemau integreiddio data yn cael eu diffinio'n ffurfiol fel y triawd   lle mae   yn sgema global (neu gyfryngol),   yw'r set hetrogenaidd o sgemâu ffynonellol (tarddiad y sgema) ac   yw mapio'r ymholiadau rhwng y ffynonellau a'r sgemâ global. Mae   ac  , ill dau, yn cael eu mynegi, mewn iaith, dros llythrennau'r Wyddor, wedi'u ffurfio o symbolau. Mae'r mapio   yn cynnwys gosodiadau (assertions) rhwng yr ymholiadau dros  , ac ymholiadau dros  . pan y gwneir ymholiad o fewn systemau integreiddio data, mae'r ymchwilydd yn gosod yr ymholiad dros   ac mae'r mapio'n gosod y cysylltiadau rhwng yr elfennau yn y sgema global a'r sgema tardd (y ffynhonnell).

Cyfeiriadau golygu

  1. Maurizio Lenzerini (2002). "Data Integration: A Theoretical Perspective" (PDF). PODS 2002. tt. 233–246.
  2. Frederick Lane (2006). "IDC: World Created 161 Billion Gigs of Data in 2006".
  3. John Miles Smith; et al. (1982). "Multibase: integrating heterogeneous distributed database systems". AFIPS '81 Proceedings of the Mai 4–7, 1981, national computer conference. tt. 487–499.
  4. Steven Ruggles, J. David Hacker, and Matthew Sobek (1995). "Order out of Chaos: The Integrated Public Use Microdata Series". Historical Methods. 28. tt. 33–39.CS1 maint: multiple names: authors list (link)
  5. Jennifer Widom (1995). "Research problems in data warehousing". CIKM '95 Proceedings of the fourth international conference on information and knowledge management. tt. 25–30.