[l10n-no] Ordelingslister

Leif H Silli verktystell at russisk.no
Man 31. Jan 2022 14:43:37 PST


Hallo!

Den 2022-01-31 21:22 skreiv Karl Ove Hufthammer:
> Leif H Silli skreiv 30.01.2022 19:04:
>> Hei
>> 
>> 1. Kva er den (mest) autoratative staden å lasta ned ordlister for 
>> ordeling ifrå? (Hyphenation-ordlister)
> 
> Det kjem an på kva du meiner med orddeling. Viss det er snakk om
> ordlister for å finna ut korleis ord er sette saman, er den
> *autoritative* kjelda leddanalyse-databasen i Norsk ordbank:
> https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-41/
> 
> Der står òg uvanlege orddelingar, som hotelløyve (= hotell + løyve,
> der trippelkonsonant vert til dobbelkonsonant), og birøktar (bie +
> røktar, der e-en fell vekk).
> 
> Men det står ingenting om deling av ikkje-samansette ord.

Eg er vel ute etter det som Språkrådet i ein artikkel kallar «orddeling 
ved linjeskift»:
https://www.sprakradet.no/sprakhjelp/Skriveregler/Orddeling_ved_linjeskift/

> Viss du
> heller vil ha såkalla orddelingsmønster (som kan brukast til dette),
> for bruk i TeX og liknande, finst det ingen *autoritative*, men eg
> anbefaler Selberg sine mønster (som igjen er ei justering av Kleveland
> sine mønster):
> https://ctan.org/pkg/nohyph
> Det er vel dei som vert lasta automatisk om du vel (ny)norsk som språk 
> i LaTeX.

Er den “nohyph”-pakka innhaldsmessig identisk med "hyph-nb.hyp.txt”, 
"hyph-nb.pat.txt”, "hyph-nn.hyp.txt” og "hyph-nn.pat.txt” som ein finn i 
det tug.ctan.org-arkivet som eg synte til? (Eg ser iallfall at 
*.hyp.txt-filene der viser at «attende» og «betre» skal delast ulikt på 
nynorsk og bokmål …)

http://tug.ctan.org/tex-archive/language/hyph-utf8/tex/generic/hyph-utf8/patterns/txt/

> Litt kuriosa: Det finst to (kjende) ord som vert delte forskjellig på
> nynorsk og bokmål. Det er «attende» og «betre» (men tydinga er altså
> forskjellig på dei to målformene.)

Det du nemner der er vel ikkje heilt rett. Iallfall litt feil - sidan 
det eine av dei to orda også står i Bokmålsordboka. Nemleg: «attende» 
står òg i Bokmålsordboka. Og dermed er tydinga lik, og orddeling ved 
lineskift vert dermed også lik. Eller, for å uttrykkja meg rettere: På 
bokmål må orddeling ved lineskift ta omsyn til om det er adverbet 
«attende» eller talordet «attende» som er meint. Medan det på nynorsk 
berre er «att-ende» som er brukande.

>> 3. Framlegg/Ide: Eg saknar ei slags «testrekke» («test suite») for 
>> bokmål og nynorsk hyphenation/ordeling. Eg skal forklara behovet med 
>> eit bruksdøme:
>> 
>> Eg har nett no henta ned hyphenation-lister for bokmål og nynorsk ifrå 
>> tug.ctan.org[1]. So har eg installert listene, etter beste evne, 
>> forsøksvis med nokre tilpassingar, slik programmet mitt (Prince XML) 
>> kravde. So har eg prøvd å ta dette i bruk. Med det resultat at eg ser 
>> at, ja, orddeling skjer. Men eg forstår ikkje utan vidare om den 
>> orddelinga som skjer fylgjer norske orddelingsreglar, eller om det 
>> berre er engelsk orddeling applisert på norsk tekst eg ser.
> 
> Tru meg, det oppdagar du *veldig* fort. Viss orddelinga ser nokolunde
> riktig ut, har du norsk orddeling. Viss du brukar engelske
> orddelingsmønster, vert det aller meste feil. Du får «nyn-orsk» og
> «bind-es-trek», for eksempel.

Tja. I farten, er det veldig fort både å gjera feil og å ikkje få med 
seg det ein burde fått med seg. Men det er klart at eg kan iallfall 
prøva å bruka «attende» og «betre» som kontrollord ...

>> Ei slik tekstrekke/testsuite burde ha nokon dømetekstar, der kvar 
>> tekst skulle vera delt i to like tekstar, der den eine sida skulle 
>> vera utan orddeling, medan den andre skulle ha (manuell/fast/hard) 
>> orddeling. Når ein så køyrer testteksten i sitt eige program, skal 
>> teksten utan manuell/fast/hard orddeling verta sjåande ut på same måte 
>> som teksten med manuell/fast/hard orddeling.
> 
> Leddanalysefilene frå Norsk ordbank kan jo brukast til å finna
> hovudorddelingane.
> 
> Og viss du vil ha nokre skikkelege (og litt humoristiske) utfordringar
> for orddelingsalgoritmen, kan du sjå på Orddeling-stoppen min (ikkje
> oppdatert på mange år): https://huftis.org/artiklar/orddeling-stoppen/
> 
> Og viss du er interessert i automatisk orddeling generelt, anbefaler
> eg Eivind Mikael Lindbråten si (usedvanlege typografisk vakre)
> masteroppgåve om emnet, som du kan lasta ned i PDF-format her:
> https://www.duo.uio.no/handle/10852/44768

Takk. Skal lesa. Men førebels må eg konsentrera meg om å installera dei 
tex-listene frå tug.ctan.org og sjekka at dei fungerer …
—
leif halvard silli


Mer informasjon om epostlisten l10n-no.