Íslenskur taugaþáttari fyrir liðgerð / Icelandic Constituency Parser

Íslenskur taugaþáttari, sem er þjálfaður á sögulega íslenska trjábankanum (IcePaHC), tilheyrir máltæknipakkanum Stanza og unnið er að því að gera hann aðgengilegan í gegnum pípuna þeirra (https://github.com/stanfordnlp/stanza). Hér verða sýnd notkunardæmi fyrir þáttarann.

Til að keyra þáttarann þarf að hafa Python 3.6 eða nýrri. Einnig þarf að sækja nokkra pakka til viðbótar en þeir eru taldir upp í skránni run.sh.

Hægt er að nálgast íslenska líkanið hér.

Ef líkanið er vistað í möppunni /stanza_is er hægt að keyra ./run.sh til að þátta texta. Keyrið eftirfarandi skipun:

./run.sh inputfile.txt txtOutputfile.txt psdOutputfile.psd

inputfile.txt er inntakstextinn sem á að þátta.
txtOutputfile.txt er úttakið úr þáttuninni þar sem hver lína inniheldur eina þáttaða setningu.
psdOutputfile.psd er úttakið úr þáttuninni þar sem trén eru á svipuðu sniði og í IcePaHC-trjábankanum.

Einnig er hægt að nota líkanið á eftirfarandi hátt með Stanza pípunni:

import stanza

nlp = stanza.Pipeline(lang='is', processors='tokenize, pos, constituency', constituency_model_path='/stanza_is/is_icepahc_transformer_finetuned_constituency.pt')
doc = nlp('Þetta er stutt setning.')
for sentence in doc.sentences:
    sentence = str(sentence.constituency).replace('*', '-')
    sentence = sentence.replace('ROOT ', '')
    print(sentence)

Úttakið er þá:

((IP-MAT (NP-SBJ (D-N Þetta)) (BEPI er) (NP-PRD (ADJ-N stutt) (N-N setning)) (. .)))

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
data		data
featureExtraction		featureExtraction
splitter		splitter
README.md		README.md
run.sh		run.sh
runStanza.py		runStanza.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Íslenskur taugaþáttari fyrir liðgerð / Icelandic Constituency Parser

About

Releases

Packages

Languages

ingunnjk/IceConParse

Folders and files

Latest commit

History

Repository files navigation

Íslenskur taugaþáttari fyrir liðgerð / Icelandic Constituency Parser

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages