[l10n-no] Ordelingslister
Karl Ove Hufthammer
karl at huftis.org
Man 31. Jan 2022 12:22:41 PST
Leif H Silli skreiv 30.01.2022 19:04:
> Hei
>
> 1. Kva er den (mest) autoratative staden å lasta ned ordlister for
> ordeling ifrå? (Hyphenation-ordlister)
Det kjem an på kva du meiner med orddeling. Viss det er snakk om
ordlister for å finna ut korleis ord er sette saman, er den
*autoritative* kjelda leddanalyse-databasen i Norsk ordbank:
https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-41/
Der står òg uvanlege orddelingar, som hotelløyve (= hotell + løyve, der
trippelkonsonant vert til dobbelkonsonant), og birøktar (bie + røktar,
der e-en fell vekk).
Men det står ingenting om deling av ikkje-samansette ord. Viss du heller
vil ha såkalla orddelingsmønster (som kan brukast til dette), for bruk i
TeX og liknande, finst det ingen *autoritative*, men eg anbefaler
Selberg sine mønster (som igjen er ei justering av Kleveland sine mønster):
https://ctan.org/pkg/nohyph
Det er vel dei som vert lasta automatisk om du vel (ny)norsk som språk i
LaTeX.
Litt kuriosa: Det finst to (kjende) ord som vert delte forskjellig på
nynorsk og bokmål. Det er «attende» og «betre» (men tydinga er altså
forskjellig på dei to målformene.)
> 3. Framlegg/Ide: Eg saknar ei slags «testrekke» («test suite») for
> bokmål og nynorsk hyphenation/ordeling. Eg skal forklara behovet med
> eit bruksdøme:
>
> Eg har nett no henta ned hyphenation-lister for bokmål og nynorsk ifrå
> tug.ctan.org[1]. So har eg installert listene, etter beste evne,
> forsøksvis med nokre tilpassingar, slik programmet mitt (Prince XML)
> kravde. So har eg prøvd å ta dette i bruk. Med det resultat at eg ser
> at, ja, orddeling skjer. Men eg forstår ikkje utan vidare om den
> orddelinga som skjer fylgjer norske orddelingsreglar, eller om det
> berre er engelsk orddeling applisert på norsk tekst eg ser.
Tru meg, det oppdagar du *veldig* fort. Viss orddelinga ser nokolunde
riktig ut, har du norsk orddeling. Viss du brukar engelske
orddelingsmønster, vert det aller meste feil. Du får «nyn-orsk» og
«bind-es-trek», for eksempel.
> Ei slik tekstrekke/testsuite burde ha nokon dømetekstar, der kvar
> tekst skulle vera delt i to like tekstar, der den eine sida skulle
> vera utan orddeling, medan den andre skulle ha (manuell/fast/hard)
> orddeling. Når ein så køyrer testteksten i sitt eige program, skal
> teksten utan manuell/fast/hard orddeling verta sjåande ut på same måte
> som teksten med manuell/fast/hard orddeling.
Leddanalysefilene frå Norsk ordbank kan jo brukast til å finna
hovudorddelingane.
Og viss du vil ha nokre skikkelege (og litt humoristiske) utfordringar
for orddelingsalgoritmen, kan du sjå på Orddeling-stoppen min (ikkje
oppdatert på mange år): https://huftis.org/artiklar/orddeling-stoppen/
Og viss du er interessert i automatisk orddeling generelt, anbefaler eg
Eivind Mikael Lindbråten si (usedvanlege typografisk vakre)
masteroppgåve om emnet, som du kan lasta ned i PDF-format her:
https://www.duo.uio.no/handle/10852/44768
--
Karl Ove Hufthammer
Mer informasjon om epostlisten l10n-no.