Taispeánann an feidhmchlár seo an dóigh chun leabuithe focal a úsáid chun focail chosúla a aimsiú. Is ionann focail chosúla anseo agus focail a thagann chun cinn sna comhthéacsanna céanna i gCorpas Náisiúnta na Gaeilge.
Leabuithe focal le híoslódáil
-
Leabuithe focalÍoslódáil
word2veccng-word2vec.vec.zip -
Leabuithe focalÍoslódáil
fasttextcng-fasttext.vec.zip
- Comhaid téacs spás-mharcáilte iad seo, i bhformáid caighdeánach
word2vec, comhbhrúite le ZIP. - Ar an chéad líne, luaitear líon na bhfocal agus líon na dtoisí (100).
- Ar gach líne eile ina dhiaidh sin, luaitear an focal sa chéad cholún, agus tugtar luachanna an veicteora sna 100 colún ina dhaidh sin.
- Tá na focail ordaithe de réir minicíochta, na focail is minice chun tosaigh.
- Nóta: Cé go bhfuil na leabuithe seo i bhformáid ar a dtugtar “formáid
word2vec”, fuarthas iad le dhá algartam éagsúla meaisínfhoghlama, an chéad cheann le halgartamword2vecagus an dara ceann le halgartamfasttext, mar atá an dá cheann acu curtha i bhfeidhm sa ríomhchlár Gensim.
Sampla úsáide
Taispeánann an sampla cóid seo conas na leabuithe focal a lódáil agus conas leas abhaint astu
leis an teanga ríomhchlárúcháin Python
agus an ríomhchlár Gensim.
import gensim# lódáil na veicteoirí:wv = gensim.models.KeyedVectors.load_word2vec_format('cng-fasttext.vec', binary=False, limit=100000)# aimsigh na deich bhfocal is cosúla le 'teach':similars = wv.most_similar('teach', topn=10)for similar in similars: print(similar)
Aschur:
('tigh', 0.9031928181648254)('seanteach', 0.773318350315094)('mbaile', 0.7576225996017456)('tigín', 0.753011167049408)('séipéal', 0.7515964508056641)('teachín', 0.7445628643035889)('pub', 0.7366455793380737)('scioból', 0.7314869165420532)('siopa', 0.7245514988899231)('bhothán', 0.7238678336143494)