Skip to content

Ríomhchlár a dhéanann aicmiú staitistiúil ar théacsanna Gaeilge de réir a gcanúint

License

Notifications You must be signed in to change notification settings

kscanne/canuint

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

** Réamhrá **

Séard atá sa stórlann seo ná ríomhchlár simplí a dhéanann aicmiú ar théacsanna
Gaeilge de réir a gcanúint: Gaeilge Chonnacht, Gaeilge na Mumhan,
nó Gaeilge Uladh.

Baineann sé úsáid as samhail staitistiúil (aicmiú Bayes) a thraenáil mé ó
chorpas mór téacsanna canúnacha ón tréimhse 1900-1950.  Táim buíoch
d'fhoireann Fhoclóir Stairiúil na Nua-Ghaeilge in Acadamh Ríoga na hÉireann
a chuir an corpas seo ar fáil go poiblí (http://research.dho.ie/fng/index.php)
mar acmhainn do thaighdeoirí agus do phobal na Gaeilge go ginearálta.

** Úsáid **

Tá an ríomhchlár scríofa i bPerl agus Shell. Mar sin, molaim duit an script
a úsáid ar chóras Linux nó Mac, ar líne na n-orduithe (Terminal ar Mhac),
cé gurbh fhéidir leat é a úsáid ar Windows trí ActiveState Perl nó a leithéid.

Mura bhfuil tú cleachta le git agus github, is féidir leat an pacáiste 
iomlán a íoslódáil leis an gcnaipe "Download ZIP" ar dheis.

Oibríonn sé ar chomhaid ghnáth-théacs mar a leanas:

$ cat CreNaCille.txt | bash canuint.sh
C

$ cat MoSgealFein.txt | bash canuint.sh
M

$ cat CaisleainOir.txt | bash canuint.sh
U

Is féidir tuilleadh sonraí (logprob do gach canúint) a fháil
leis an mbratach -v:

$ cat CaisleainOir.txt | bash canuint.sh -v
M: -2148.756
C: -2175.766
U: -1382.291
U

Nó fiú abairt amháin a thástáil le "echo": 

$ echo "goidé mar atá na préataí ag an bhomaite seo" | bash canuint.sh
U


** Cuidiú **

Ba dhúshlán suimiúil sa ríomhfhoghlaim é an tionscadal seo. Bhí sé an-éasca
dul thar fóir le linn an phróisis traenála ("overfitting" i mBéarla). Baineann
an fhadhb le foirmeacha a léiríonn fíordhifríocht idir na canúintí agus
litrithe éagsúla a d'úsáid údair sa chorpas nach mbaineann le 
cúrsaí canúna ar chor ar bith (go bhfios dom - mar shampla "teampal" atá
chun tosaigh i gCúige Mumhan, "teampall" i gCúige Uladh, agus "teampoll"
i gCúige Connacht).  Mar sin, ba mhór an chabhair é an tsamhail a "bhearradh"
agus gan ach na gnéithe is suntasaí a choinneáil. Gheobhaidh tú na gnéithe
seo sa chomhad "features.txt". Sílim go bhfuil sé suimiúil an comhad seo
a bhrabhsáil fiú mura bhfuil suim mhór agat sna mionsonraí teicniúla - arís,
is éard atá ann ná na gnéithe is suntasaí ó thaobh canúna, bunaithe
go hiomlán ar anailís staitistiúil.   Fearaim fáilte roimh cheartúcháin,
moltaí, nó focail/frásaí eile ba chóir dom a chur leis an liosta gnéithe.

About

Ríomhchlár a dhéanann aicmiú staitistiúil ar théacsanna Gaeilge de réir a gcanúint

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published