CorCenCC

Corpws testun Cymraeg

Mae CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes) yn adnodd iaith ar gyfer siaradwyr Cymraeg, dysgwyr Cymraeg, ymchwilwyr i'r iaith Gymraeg, ac yn wir unrhyw un sydd â diddordeb yn y Gymraeg. Mae CorCenCC yn gasgliad o samplau amryfal o iaith wedi'u codi o gyfathrebu 'bywyd go iawn' sy'n cael eu cyflwyno mewn corpws ar-lein - CorCenCC - y mae modd ei chwilio. Yn rhan o'r corpws, ceir pecyn cymorth dysgu ac addysgu ar-lein – Y Tiwtiadur Archifwyd 2020-10-22 yn y Peiriant Wayback. – sy'n defnyddio data o'r corpws yn uniongyrchol i roi adnoddau ar gyfer dysgu Cymraeg ar bob lefel ac i bob oedran.

Logo prosiect a chorpws CorCenCC

Wedi'i lansio ym Medi 2020, CorCenCC yw'r corpws cyntaf yn y Gymraeg sy'n cynnwys y tair agwedd ganlynol ar Gymraeg cyfoes: llafar, ysgrifenedig a chyfrwng electronig (e-iaith).[1]

Tîm golygu

Mae CorCenCC yn brosiect aml-ddisgyblaethol ac aml-sefydliadol sy'n cynnwys 4 sefydliad academaidd (Prifysgolion Caerdydd, Abertawe, Caerhirfryn a Bangor), 1 Prif Ymchwilydd (PY - Dawn Knight), 2 Gyd-Ymchwilydd (CY - Tess Fitzpatrick a Steve Morris) sydd, ynghyd â'r PY, yn ffurfio Tîm Rheoli CorCenCC (TRhC), cyfanswm o 7 CY arall, 10 Cynorthwyydd/Cydymaith Ymchwil (CA), a 180+ o drawsgrifwyr yn gweithio dros gyfnod y prosiect. Ar ben hynny, yr oedd 6 ymgynghorydd, 2 fyfyriwr PhD, 4 myfyriwr israddedig ar leoliad gwaith, 4 aelod o staff cynorthwyol gwasanaethau proffesiynol a 2 wirfoddolwr prosiect. Mae'r prosiect wedi elwa hefyd o gyfraniadau a chefnogaeth gan gynrychiolwyr o ystod o randdeiliaid gan gynnwys, Llywodraeth Cymru, Senedd Cymru, BBC Cymru, S4C, CBAC, Dysgu Cymraeg, Y Lolfa, SaySomethinginWelsh a Geiriadur Prifysgol Cymru, a hynny trwy Grŵp Ymgynghorol y Prosiect (GYP). Llysgenhadon swyddogol prosiect CorCenCC yw Nia Parry (cyflwynydd, cynhyrchydd ac ymchwilydd teledu; tiwtor Cymraeg, cariad@iaith (S4C)), Nigel Owens (dyfarnwr rygbi rhyngwladol; cyflwynydd teledu), Cerys Matthews (cerddor, awdur; cyflwynydd radio a theledu) a Damian Walford Davies (bardd; Athro Llên Saesneg a Chymraeg; cyn-gadeirydd Llenyddiaeth Cymru).

Cyfansoddiad golygu

Mae CorCenCC yn cynnwys 11 miliwn o eiriau o Gymraeg sy'n digwydd yn naturiol (DS: mae fersiwn y corpws a geir ar wefan CorCenCC yn rhoi canlyniadau mewn tocynnau yn hytrach na geiriau). Roedd creu CorCenCC yn brosiect a yrrwyd gan y gymuned gan gynnig cyfle i ddefnyddwyr y Gymraeg fod yn rhagweithiol o ran cyfrannu at adnodd Cymraeg sy'n adlewyrchu sut mae'r iaith yn cael ei defnyddio ar hyn o bryd. Felly, mae'r set ddata yn cynnig ciplun o'r iaith Gymraeg ar draws ystod o gyd-destunau defnydd, e.e. sgyrsiau preifat, cymdeithasu mewn grŵp, busnes a sefyllfaoedd gwaith eraill, mewn addysg, yn y cyfryngau cyhoeddi gwahanol, ac mewn lleoedd cyhoeddus. Gellir dod o hyd i restr lawn o gyd-destunau, genres a phynciau a gynhwysir yn y corpws yn y canllawiau i ddefnyddwyr ar wefan y prosiect.

Recordiwyd sgyrsiau gan y tîm ymchwil, a chynlluniwyd ap torfoli penodol[2] oedd yn golygu bod modd i siaradwyr Cymraeg yn y gymuned recordio a llwytho samplau o'u hiaith eu hunain i fyny i'w defnyddio yn y corpws. Cafodd y corpws - CorCenCC - a gyhoeddwyd ei samplo o amrywiaeth o siaradwyr a defnyddwyr gwahanol y Gymraeg, o bob rhan o Gymru, pob oedran a rhyw, gydag ystod eang o alwedigaethau, ac o wahanol gefndiroedd ieithyddol (e.e. sut daethon nhw i siarad Cymraeg), i adlewyrchu'r amrywiaeth o ran mathau o destun a'r siaradwyr Cymraeg a geir yn y Gymru gyfoes.

Ymgynghorodd tîm CorCenCC â defnyddwyr posibl y corpws ar bob cam datblygu[3]. Ar sail hyn, cynlluniwyd offer er mwyn archwilio'r corpws, gan sicrhau'r gwerth mwyaf i amrywiaeth eang o grwpiau o ddefnyddwyr, o athrawon i ddysgwyr i ymchwilwyr academaidd, cyfieithwyr, cyhoeddwyr, llunwyr polisi, datblygwyr technoleg iaith, ac eraill.

Offer golygu

Mae prosiect CorCenCC wedi datblygu ystod o offer a phrosesau newydd mewn ymgynghoriad â chynrychiolwyr pob grŵp academaidd a defnyddwyr yn y gymuned. Prif allbynnau prosiect CorCenCC yw:

  • Set ddata o 11 miliwn o eiriau o Gymraeg
  • Fframwaith samplo CorCenCC
  • Protocolau trawsgrifio pwrpasol ar gyfer Cymraeg llafar
  • Set o dagiau a thagiwr Rhannau Ymadrodd Cymraeg, CyTag[4]: tagiwr Cymraeg arloesol (ynghyd â set o dagiau pwrpasol) wedi'i gynllunio a'i greu ar gyfer y prosiect. Mae'n cael ei ddefnyddio i gyd-fynd â'r tagiwr semantig i dagio pob eitem eirfaol yn y corpws.
  • CySemTag: Mae'r Tagiwr Semantig Cymraeg[5][6][7] yn cymhwyso anodi corpws yn awtomatig i'r data Cymraeg.
  • Pecyn cymorth pedagogaidd Cymraeg, Y Tiwtiadur Archifwyd 2020-10-01 yn y Peiriant Wayback.[8], sy'n cynnwys:
    • offeryn Llenwi Bylchau (Cloze)
    • offeryn Proffiliwr Geiriau
    • offeryn Adnabod Geiriau
    • offeryn Creu Tasgau Geiriau
  • Ap torfoli[2] ar gyfer casglu data: cafodd ei gynllunio er mwyn caniatáu i siaradwyr Cymraeg recordio sgyrsiau rhyngddyn nhw eu hunain ac eraill ar draws amrywiaeth o gyd-destunau a'u llwytho i fyny, ynghyd â chydsyniad y cyfranogwyr (sy'n cydymffurfio'n foesegol) i'w cynnwys yn y corpws terfynol. Mae data trwy dorfoli yn gyfeiriad cymharol newydd sy'n cydweddu â dulliau casglu data iaith mwy traddodiadol, ac mae'n cyd-fynd â'r ysbryd cymunedol a geir ymhlith siaradwyr a dysgwyr Cymraeg ac ieithoedd lleiafrifedig eraill.
  • Isadeiledd corpws newydd CorCenCC[9]. Offer ymholi sy'n cynnwys y swyddogaethau canlynol:
    • Ymholiad syml
    • Ymholiad cymhleth
    • Creu rhestr amlder
    • Dadansoddi cydleoliadau
    • Dadansoddi N-gramau
    • Concordans
    • Dadansoddi geiriau allweddol

Mae holl offer meddalwedd CorCenCC ar gael ar safle GitHub y prosiect.

Trwydded golygu

Mae corpws CorCenCC a'r offer meddalwedd cysylltiedig wedi'u trwyddedu o dan Creative Commons CC-BY-SA v4 ac felly maent ar gael yn rhad ac am ddim i'w defnyddio gan gymunedau proffesiynol ac unigolion â diddordeb mewn iaith. Rhoddir cymwysiadau a chyfarwyddiadau pwrpasol ar gyfer pob offeryn. Wrth adrodd am wybodaeth sy'n deillio o ddefnyddio data a/neu offer corpws CorCenCC, dylid cydnabod CorCenCC yn briodol.

Cydnabod cyllid golygu

Cyllidwyd yr ymchwil y seiliwyd prosiect CorCenCC arni gan Gyngor Ymchwil Economaidd a Chymdeithasol y DU (en:ESRC) a Chyngor Ymchwil y Celfyddydau a'r Dyniaethau (AHRC) fel prosiect "Corpws Cenedlaethol Cymraeg Cyfoes (The National Corpus of Contemporary Welsh): A community driven approach to linguistic corpus construction" (Rhif y Grant ES/M011348/1).

Dolenni allanol golygu

Cyfeiriadau golygu

  1. Knight, D.; Morris, S.; Fitzpatrick, T.; Rayson, P.; Spasić, I.; Thomas, E.-M. (2020). Corpws Cenedlaethol Cymraeg Cyfoes - The National Corpus of Contemporary Welsh - A community driven approach to linguistic corpus construction: Project Report. Archifwyd o'r gwreiddiol ar 2020-10-01. Cyrchwyd 2020-09-18.
  2. 2.0 2.1 Neale, S.; Spasić, I.; Needs, J.; Watkins, G.; Morris, S.; Fitzpatrick, T.; Marshall, L.; Knight, D. (2017), "The CorCenCC crowdsourcing app: A bespoke tool for the user-driven creation of the national corpus of contemporary Welsh", Corpus Linguistics Conference 2017, Newcastle University
  3. Needs, J.; Knight, D.; Morris, S.; Fitzpatrick, T.; Thomas, E.-M.; Neale, S. (2017), "How will you make sure the material is suitable for children?”: User-informed design of Welsh corpus-based learning/teaching tools", Paper presented at the Corpus Linguistics Conference 2017, University of Birmingham
  4. Neale, S.; Donnelly, K.; Watkins, G.; Knight, D. (2018). "Leveraging Lexical Resources and Constraint Grammar for Rule-Based Part-of-Speech Tagging in Welsh". Poster presented at the LREC (Language Resources Evaluation) 2018 Conference. Miyazaki, Japan.
  5. http://ucrel.lancs.ac.uk/usas/
  6. Piao, S.; Rayson, P.; Knight, D.; Watkins, G. (2018), "Towards a Welsh Semantic Annotation System", Proceedings of the LREC (Language Resources Evaluation) 2018 Conference, Miyazaki, Japan
  7. Piao, S.; Rayson, P.; Knight, D.; Watkins, G.; Donnelly, K. (2017), "Towards a Welsh Semantic Tagger: Creating Lexicons for A Resource Poor Language", Proceedings of The Corpus Linguistics 2017 Conference, University of Birmingham, Birmingham, UK
  8. Davies, J.; Thomas, E.-M.; Fitzpatrick, T.; Needs, J.; Anthony, L.; Cobb, T.; Knight, D (2020). "Y Tiwtiadur. [Digital Resource]". Archifwyd o'r gwreiddiol ar 2020-10-01. Cyrchwyd 2020-09-18.
  9. Knight, D.; Loizides, F.; Neale, S.; Anthony, L.; Spasić, I. (2020). "Developing computational infrastructure for the CorCenCC corpus: The National Corpus of Contemporary Welsh". Language Resources and Evaluation: 1-28. doi:10.1007/s10579-020-09501-9.