[l10n-no] Ordelingslister

Karl Ove Hufthammer karl at huftis.org
Man 31. Jan 2022 12:22:41 PST


Leif H Silli skreiv 30.01.2022 19:04:
> Hei
>
> 1. Kva er den (mest) autoratative staden å lasta ned ordlister for 
> ordeling ifrå? (Hyphenation-ordlister)

Det kjem an på kva du meiner med orddeling. Viss det er snakk om 
ordlister for å finna ut korleis ord er sette saman, er den 
*autoritative* kjelda leddanalyse-databasen i Norsk ordbank: 
https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-41/

Der står òg uvanlege orddelingar, som hotelløyve (= hotell + løyve, der 
trippelkonsonant vert til dobbelkonsonant), og birøktar (bie + røktar, 
der e-en fell vekk).

Men det står ingenting om deling av ikkje-samansette ord. Viss du heller 
vil ha såkalla orddelingsmønster (som kan brukast til dette), for bruk i 
TeX og liknande, finst det ingen *autoritative*, men eg anbefaler 
Selberg sine mønster (som igjen er ei justering av Kleveland sine mønster):
https://ctan.org/pkg/nohyph
Det er vel dei som vert lasta automatisk om du vel (ny)norsk som språk i 
LaTeX.

Litt kuriosa: Det finst to (kjende) ord som vert delte forskjellig på 
nynorsk og bokmål. Det er «attende» og «betre» (men tydinga er altså 
forskjellig på dei to målformene.)


> 3. Framlegg/Ide: Eg saknar ei slags «testrekke» («test suite») for 
> bokmål og nynorsk hyphenation/ordeling. Eg skal forklara behovet med 
> eit bruksdøme:
>
> Eg har nett no henta ned hyphenation-lister for bokmål og nynorsk ifrå 
> tug.ctan.org[1]. So har eg installert listene, etter beste evne, 
> forsøksvis med nokre tilpassingar, slik programmet mitt (Prince XML) 
> kravde. So har eg prøvd å ta dette i bruk. Med det resultat at eg ser 
> at, ja, orddeling skjer. Men eg forstår ikkje utan vidare om den 
> orddelinga som skjer fylgjer norske orddelingsreglar, eller om det 
> berre er engelsk orddeling applisert på norsk tekst eg ser.

Tru meg, det oppdagar du *veldig* fort. Viss orddelinga ser nokolunde 
riktig ut, har du norsk orddeling. Viss du brukar engelske 
orddelingsmønster, vert det aller meste feil. Du får «nyn-orsk» og 
«bind-es-trek», for eksempel.


> Ei slik tekstrekke/testsuite burde ha nokon dømetekstar, der kvar 
> tekst skulle vera delt i to like tekstar, der den eine sida skulle 
> vera utan orddeling, medan den andre skulle ha (manuell/fast/hard) 
> orddeling. Når ein så køyrer testteksten i sitt eige program, skal 
> teksten utan manuell/fast/hard orddeling verta sjåande ut på same måte 
> som teksten med manuell/fast/hard orddeling.

Leddanalysefilene frå Norsk ordbank kan jo brukast til å finna 
hovudorddelingane.

Og viss du vil ha nokre skikkelege (og litt humoristiske) utfordringar 
for orddelingsalgoritmen, kan du sjå på Orddeling-stoppen min (ikkje 
oppdatert på mange år): https://huftis.org/artiklar/orddeling-stoppen/

Og viss du er interessert i automatisk orddeling generelt, anbefaler eg 
Eivind Mikael Lindbråten si (usedvanlege typografisk vakre) 
masteroppgåve om emnet, som du kan lasta ned i PDF-format her: 
https://www.duo.uio.no/handle/10852/44768


-- 
Karl Ove Hufthammer



Mer informasjon om epostlisten l10n-no.