Prosesu Iaith Naturiol
Prosesu Iaith Naturiol (PIN; neu NLP o'i enw Saesneg, Natural Language Processing) yw'r ddisgyblaeth gyfrifiadurol sy'n gyfrifol am drin ieithoedd naturiol, neu ieithoedd dynol yn gyfrifiadol.[1] Mae Prosesu Iaith Naturiol yn cyfuno cyfrifiadureg, ieithyddiaeth a deallusrwydd artiffisial ac mae wedi'i wreiddio mewn datrys problemau drwy gymhwyso atebion technolegol sy'n prosesu ac yn dadansoddi iaith neu lafariad naturiol.[2]
Enghraifft o'r canlynol | disgyblaeth academaidd, arbenigedd, maes astudiaeth, cangen economaidd |
---|---|
Math | deallusrwydd artiffisial, cyfrifiadureg, computational linguistics, disgyblaeth academaidd, information processing |
Ffeiliau perthnasol ar Gomin Wicimedia |
Gwreiddiau
golyguGaned PIN ar ddiwedd yr 1940au, ond ni fu ymdrechion i wneud cyfieithiad awtomatig rhwng Saesneg a Rwsieg (gan yr Unol Daleithiau, yn sgil y Rhyfel Oer) yn llwyddiannus gan fod modelau iaith syml iawn yn cael eu defnyddio, ac roedd pŵer cyfrifiaduron yn brin iawn. Er hyn, ar y pryd, disgwyla'r rheolwyr y byddai cyfieithu cyfiadurol ar gael ymhen pum mlynedd, ond nid felly a fu.[4] gan fod modelau iaith syml iawn yn cael eu defnyddio, ac roedd pŵer cyfrifiaduron yn brin iawn. Yn ystod yr 1960au a 70au, gydag amcanion mwy diymhongar, gwnaed datblygiadau pwysig wrth weithredu rhyngwynebau mynediad data mewn iaith naturiol. Ers y 1980au, diolch i rym cynyddol cyfrifiaduron — yn ogystal â mabwysiadu damcaniaethau ieithyddol mwy cymhleth — mae canlyniadau pwysig yn cael eu cyflawni mewn amrywiol feysydd, megis cyfieithu awtomatig.
Hyd at yr 1980au, roedd y rhan fwyaf o systemau NLP yn seiliedig ar setiau cymhleth o reolau mewn llawysgrifen. Fodd bynnag, o ddiwedd yr wythdegau bu chwyldro yn NLP gyda chreu algorithmau dysgu peirianyddol ar gyfer prosesu iaith. Roedd hyn oherwydd y cynnydd cyson mewn grym cyfrifiadurol (gweler Cyfraith Moore) a gostyngiad yn nylanwad damcaniaethau ieithyddol yr athronydd Noam Chomsky (megis gramadeg trawsnewidiol), lle nad yw’r seiliau damcaniaethol yn cyfateb i’r math o ieithyddiaeth corpws y mae’r math hwn o beiriant arno. dysgu yn seiliedig. [5]
Cynhyrchodd rhai o'r algorithmau dysgu peiriant cynharaf megis coed penderfyniad systemau gyda rheolau caled "os-yna" tebyg i reolau llawysgrifen presennol. Dechreuodd tagio rhan-o-leferydd weithredu modelau cudd Markov fel y'u gelwir, ac o hynny ymlaen, dechreuodd ymchwil yn NLP ganolbwyntio mwy ar fodelau ystadegol, lle gwneir penderfyniadau meddal, yn seiliedig ar debygolrwydd. Mae'r penderfyniadau'n seiliedig ar bwysau gwirioneddol werthfawr sy'n gysylltiedig â nodweddion yn y data mewnbwn. Mae'r hyn a elwir yn "modelau cast" (modelau iaith sy'n defnyddio cof cache), y mae llawer o systemau adnabod lleferydd yn seiliedig arnynt, yn enghreifftiau o fodelau ystadegol o'r fath. Mae'r modelau hyn yn gyffredinol yn fwy cadarn pan fyddant yn derbyn mewnbwn anhysbys, yn enwedig mewnbwn sy'n cynnwys gwallau (sy'n aml iawn yn wir gyda data byd go iawn). Mae canlyniadau'r modelau hefyd yn gyffredinol yn fwy dibynadwy pan gânt eu hintegreiddio i system fwy sy'n cynnwys is-dasgau lluosog.
Dulliau: Rheolau, ystadegau, rhwydweithiau niwral
golyguYn y dyddiau cynnar, dyluniwyd llawer o systemau prosesu iaith trwy ddulliau symbolaidd, h.y., codio set o reolau â llaw, ynghyd ag chwiliad geiriadur:[6][7] megis trwy ysgrifennu gramadegau neu ddyfeisio rheolau hewristig ar gyfer deillio.
Mae gan systemau mwy diweddar sy'n seiliedig ar algorithmau dysgu peiriannau lawer o fanteision dros reolau a gynhyrchir â llaw:
- Mae'r gweithdrefnau dysgu a ddefnyddir yn ystod dysgu peirianyddol yn canolbwyntio'n awtomatig ar yr achosion mwyaf cyffredin, ond wrth ysgrifennu rheolau â llaw nid yw'n amlwg o gwbl yn aml i ble y dylid cyfeirio'r ymdrech.
- Gall gweithdrefnau dysgu awtomatig ddefnyddio algorithmau casgliad ystadegol i gynhyrchu modelau sy’n gadarn i fewnbwn anghyfarwydd (e.e. sy’n cynnwys geiriau neu strwythurau nas gwelwyd o’r blaen) a mewnbwn gwallus (e.e. gyda geiriau wedi’u camsillafu neu eiriau wedi’u hepgor yn ddamweiniol). Yn gyffredinol, mae trin mewnbwn o'r fath yn osgeiddig â rheolau mewn llawysgrifen, neu, yn fwy cyffredinol, creu systemau o reolau mewn llawysgrifen sy'n gwneud penderfyniadau meddal, yn hynod o anodd, yn dueddol o wallau ac yn cymryd llawer o amser.
- Gellir gwneud systemau sy'n seiliedig ar ddysgu'r rheolau yn awtomatig yn fwy cywir trwy gyflenwi mwy o ddata mewnbwn. Fodd bynnag, dim ond trwy gynyddu cymhlethdod y rheolau y gellir gwneud systemau sy'n seiliedig ar reolau mewn llawysgrifen yn fwy cywir, sy'n dasg llawer anoddach. Yn benodol, mae cyfyngiad ar gymhlethdod systemau sy'n seiliedig ar reolau mewn llawysgrifen, ac y tu hwnt i hynny mae'r systemau'n dod yn fwyfwy anhydrin. Fodd bynnag, mae creu mwy o ddata i'w fewnbynnu i systemau dysgu peiriant yn syml yn gofyn am gynnydd cyfatebol yn nifer yr oriau gwaith a weithiwyd, yn gyffredinol heb gynnydd sylweddol yng nghymhlethdod y broses anodi.
Er gwaethaf poblogrwydd dysgu peirianyddol mewn ymchwil NLP, mae dulliau symbolaidd yn dal i gael eu defnyddio (2020) yn gyffredin:
- pan fo swm y data hyfforddi yn annigonol i gymhwyso dulliau dysgu peirianyddol yn llwyddiannus, e.e., ar gyfer cyfieithu peirianyddol ieithoedd adnoddau isel fel y darperir gan system Apertium,
- ar gyfer rhagbrosesu mewn piblinellau NLP, e.e., tokenization, neu
- ar gyfer ôl-brosesu a thrawsnewid allbwn piblinellau NLP, e.e., ar gyfer echdynnu gwybodaeth o ddosrannu cystrawennol.
Prif gymwysiadau'r PIN
golyguPrif gymwysiadau neu feysydd gwaith PIN ar hyn o bryd yw adalw gwybodaeth, echdynnu gwybodaeth, chwilio atebion, cyfieithu peirianyddol, cynhyrchu crynodebau, ac adnabod lleferydd.
Tasgau PIN
golyguYn gyffredinol, mae PIN yn delio â dadansoddiad geiriadurol, dadansoddiad morffolegolo, dadansoddiad cystrawen, a dehongliad semantig er mwyn cyflawni ei hamcanion, er bod y rhan fwyaf o gymwysiadau yn canolbwyntio ar rai ohonynt ac nid pob un ohonynt. maent yn trin y cyfan yn fanwl.
Amwysedd, y broblem PIN
golyguMae ieithoedd dynol i gyd yn amwys. Mae’r amwysedd hwn, y mae bodau dynol yn gwybod sut i ddelio ag ef a’i ddatrys yn anymwybodol y rhan fwyaf o’r amser, yn cyflwyno ei hun mewn gwahanol ffyrdd:
- Ar y lefel geiriadurol, gan y gall gair fod â gwahanol ystyron. O fewn yr amwysedd hwn rydym yn dod o hyd i amwysedd geiriadurol pur, sy'n digwydd mewn achosion o amryliw (gair â mwy nag un ystyr) ac, yn ôl rhai awduron, amwysedd geiriadurol categorïaidd ( homonymau - geiriau gwahanol sy'n cael eu sillafu'r un peth).
- Ar y lefel gyfeiriol, cyfeirir at benderfyniad anaphoras , sy'n golygu pennu pa endid o'r rhai a grybwyllwyd yn flaenorol yn y disgwrs y cyfeirir ato trwy gyfrwng rhagenwau, is-gymalau, ac ati. Mae rhai awduron yn ystyried y math hwn o amwysedd yn amwysedd geiriadurol, tra bod eraill yn ei ystyried dosbarth amlwg o amwysedd, ar lefel uwch.
- Ar lefel strwythurol, pan fydd yr un frawddeg yn gallu cael dwy goeden dadansoddi cystrawen gwahanol . Mae rhai awduron yn cynnwys yn y dosbarth hwn - neu o leiaf fel amwysedd geiriadurol-strwythurol cymysg - homonymau.
- Ar lefel bragmatig, ers sawl gwaith nid yw brawddeg yn golygu'r hyn y mae'n ymddangos i'w ddweud. Mae trosiadau, eironi, ac ati yn effeithio ar ddehongliad yr araith.
Er mwyn gweithio gydag ieithoedd naturiol, rhaid i'r PIN ddatrys yr holl amwyseddau hyn, gan droi'n aml at gynrychiolaeth fewnol sy'n dileu'r amwysedd hwn.
Tueddiadau cyffredinol a chyfeiriadau (posibl) at y dyfodol
golyguYn seiliedig ar dueddiadau hirsefydlog yn y maes, mae'n bosibl allosod cyfeiriadau NLP yn y dyfodol. O 2020 ymlaen, gellir gweld tri thuedd ymhlith pynciau'r gyfres hirsefydlog o CoNLL Shared Tasks:[8]
- Diddordeb ar agweddau cynyddol haniaethol, "gwybyddol" ar iaith naturiol (1999-2001: dosrannu bas, 2002-03: adnabod endid a enwir, 2006-09/2017-18: cystrawen dibyniaeth, 2004-05/2008-09 labelu rôl semantig, creiddiol 2011–12, 2015–16: dosrannu disgwrs, 2019: dosrannu semantig).
- Diddordeb cynyddol mewn amlieithrwydd, ac, o bosibl, amlfodd (Saesneg ers 1999; Sbaeneg, Iseldireg ers 2002; Almaeneg ers 2003; Bwlgareg, Daneg, Japaneg, Portiwgaleg, Slofeneg, Swedeg, Tyrceg ers 2006; Basgeg, Catalaneg, Tsieinëeg, Groeg, Hwngareg, Eidaleg, Tyrceg ers 2007; Tsieceg ers 2009; Arabeg ers 2012; 2017: 40+ o ieithoedd; 2018: 60+/100+ o ieithoedd).
- Dileu cynrychioliadau symbolaidd (ar sail rheolau gor-oruchwylio tuag at ddulliau a oruchwylir yn wan, dysgu cynrychioliadol a systemau diwedd-i-ddiwedd)
PIN a'r Gymraeg
golyguMae gwahanol unigolion, sefydliadau a Llywodraeth Cymru wedi mynd ati i brif-ffrydio'r iaith Gymraeg fewn i dechnoleg PIN.
Yn 2015 sefydlodd Lywodraeth Cymru Pecyn Cymorth Iaith Naturiol Cymru (WNLT). Nod WNLT oedd datblygu cyfres o fodiwlau meddalwedd cod agored sy'n galluogi cymwysiadau ieithyddol cyfrifiadurol Cymraeg a chryfhau seilwaith technoleg Cymraeg gyda set o offer prosesu iaith naturiol (NLP) craidd o fewn y Porth Fframwaith.[9] Yn hytrach na chreu Pecyn Cymorth Iaith Naturiol Cymru (WNLT) o’r newydd, roedd y dull yn ymwneud ag addasu a gwella’r ymarferoldeb prosesu iaith a ddarperir ar gyfer ieithoedd eraill o fewn fframwaith sy’n bodoli eisoes a gwneud defnydd o adnoddau iaith allanol pan oedd ar gael.[10]
Porth Technoleg Iaith Cenedlaethol Cymru
golyguCaiff y Porth Technolegau Iaith Cenedlaethol ei ddarparu gan Uned Technolegau Iaith Prifysgol Bangor. Bwriad y Porth yw darparu un man canolog i roi gwybod am adnoddau a digwyddiadau perthnasol, y rhan fwyaf ohonynt yn cael eu hariannu gan Lywodraeth Cymru. Mae'n dod o dan adain Canolfan Bedwyr sy'n rhan o'r Brifysgol. Diffinia Dechnoleg Iaith fel popeth lle mae cyfrifiaduron a dyfeisiau electronig yn ceisio gweithio gyda ieithoedd dynol. Gall hyn gynnwys adnabod lleferydd (lle mae pobl yn siarad a’r cyfrifiadur yn ymateb neu’n teipio’r testun), testun i leferydd (lle mae’r cyfrifiadur neu’r ddyfais yn siarad yr hyn sydd mewn testun ysgrifenedig, a hynny mewn llais synthetig), a chyfieithu peirianyddol (lle mae’r peiriant yn cyfieithu rhwng dwy neu fwy o ieithoedd, heb fod angen help cyfieithydd dynol). Mae hefyd yn cynnwys Prosesu Iaith Naturiol (NLP), lle mae’r cyfrifiadur yn defnyddio Deallusrwydd Artiffisial (AI) i ddadansoddi a deall iaith.[11]
Defnydd cyfredol
golyguYnghyd â defnydd o PIN mewn technoleg fel adnabod lleferydd, mae hefyd i'w weld fwy-fwy mewn meysydd arbenigol fel y Gyfraith.[12]
Cyfeiriadau
golygu- ↑ Els algorismes a examen: Per què la IA a l'educació? (PDF). Fundació Bofill (llicència CC-BY). 2023. ISBN 978-84-124829-8-0. Archifwyd o'r gwreiddiol (PDF) ar 2023-01-04. Cyrchwyd 26/03/2023. Check date values in:
|access-date=
(help) - ↑ "Prosesu Iaith Naturiol - Beth ydyw a pham y dylech ymddiddori". Labordy Arloesi Cyfreithiol Cymru. Cyrchwyd 19 Gorffennaf 2023.
- ↑ Implementing an online help desk system based on conversational agent Authors: Alisa Kongthon, Chatchawal Sangkeettrakarn, Sarawoot Kongyoung and Choochart Haruechaiyasak.
- ↑ Hutchins, J. (2005). "The history of machine translation in a nutshell" (PDF). Archifwyd o'r gwreiddiol (PDF) ar 2019-07-13. Cyrchwyd 2023-07-19.Nodyn:Self-published source
- ↑ Mae ieithyddiaeth Chomskyan yn annog yr ymarferydd iaith i ymchwilio i "achosion cornel" fel y'u gelwir sy'n tynnu sylw at derfynau ei fodelau damcaniaethol (yn debyg i ffenomenau patholegol mewn mathemateg). Mae hyn yn bennaf o ganlyniad i arbrofion meddwl yn lle ymchwiliad systematig i ffenomenau nodweddiadol sy'n digwydd mewn data real, fel sy'n wir yn achos ieithyddiaeth corpws.
- ↑ Winograd, Terry (1971). "Procedures as a Representation for Data in a Computer Program for Understanding Natural Language".
- ↑ Schank, Roger C.; Abelson, Robert P. (1977). Scripts, Plans, Goals, and Understanding: An Inquiry Into Human Knowledge Structures (thesis). Hillsdale: Erlbaum. ISBN 0-470-99033-3.
- ↑ "Previous shared tasks | CoNLL". www.conll.org. Cyrchwyd 2021-01-11.
- ↑ "Pecyn Cymorth Iaith Naturiol Cymru (WNLT)". Gwefan Llywodraeth Cymru. Cyrchwyd 19 Gorffennaf 2023.
- ↑ "Natural language processing for under-resourced languages: Developing a Welsh natural language toolkit". Gwefan Science Direct, erthygkl yn Computer Speech & Language, Volume 72, March 2022, 101311. 2022. Cyrchwyd 19 Gorffennaf 2023.
- ↑ "Porth Technolegau Iaith Cenedlaethol Cymru". Prifysgol Bangor. Cyrchwyd 19 Gorffennaf 2023.
- ↑ "Prosesu Iaith Naturiol - Beth ydyw a pham y dylech ymddiddori". Labordy Arloesi Cyfreithiol Cymru. 2022.
Dolenni allanol
golygu- Rhwydwaith Genedlaethol Technolegau Iaith Cymraeg dan nawdd Prifysgol Bangor a Llywodraeth Cymru
- Text, Speech and Translation Technologies for the Welsh Language 2020 - 2023 ar wefan European Language Grid