[l10n-no] Ordelingslister
Leif H Silli
verktystell at russisk.no
Man 31. Jan 2022 14:43:37 PST
Hallo!
Den 2022-01-31 21:22 skreiv Karl Ove Hufthammer:
> Leif H Silli skreiv 30.01.2022 19:04:
>> Hei
>>
>> 1. Kva er den (mest) autoratative staden å lasta ned ordlister for
>> ordeling ifrå? (Hyphenation-ordlister)
>
> Det kjem an på kva du meiner med orddeling. Viss det er snakk om
> ordlister for å finna ut korleis ord er sette saman, er den
> *autoritative* kjelda leddanalyse-databasen i Norsk ordbank:
> https://www.nb.no/sprakbanken/ressurskatalog/oai-nb-no-sbr-41/
>
> Der står òg uvanlege orddelingar, som hotelløyve (= hotell + løyve,
> der trippelkonsonant vert til dobbelkonsonant), og birøktar (bie +
> røktar, der e-en fell vekk).
>
> Men det står ingenting om deling av ikkje-samansette ord.
Eg er vel ute etter det som Språkrådet i ein artikkel kallar «orddeling
ved linjeskift»:
https://www.sprakradet.no/sprakhjelp/Skriveregler/Orddeling_ved_linjeskift/
> Viss du
> heller vil ha såkalla orddelingsmønster (som kan brukast til dette),
> for bruk i TeX og liknande, finst det ingen *autoritative*, men eg
> anbefaler Selberg sine mønster (som igjen er ei justering av Kleveland
> sine mønster):
> https://ctan.org/pkg/nohyph
> Det er vel dei som vert lasta automatisk om du vel (ny)norsk som språk
> i LaTeX.
Er den “nohyph”-pakka innhaldsmessig identisk med "hyph-nb.hyp.txt”,
"hyph-nb.pat.txt”, "hyph-nn.hyp.txt” og "hyph-nn.pat.txt” som ein finn i
det tug.ctan.org-arkivet som eg synte til? (Eg ser iallfall at
*.hyp.txt-filene der viser at «attende» og «betre» skal delast ulikt på
nynorsk og bokmål …)
http://tug.ctan.org/tex-archive/language/hyph-utf8/tex/generic/hyph-utf8/patterns/txt/
> Litt kuriosa: Det finst to (kjende) ord som vert delte forskjellig på
> nynorsk og bokmål. Det er «attende» og «betre» (men tydinga er altså
> forskjellig på dei to målformene.)
Det du nemner der er vel ikkje heilt rett. Iallfall litt feil - sidan
det eine av dei to orda også står i Bokmålsordboka. Nemleg: «attende»
står òg i Bokmålsordboka. Og dermed er tydinga lik, og orddeling ved
lineskift vert dermed også lik. Eller, for å uttrykkja meg rettere: På
bokmål må orddeling ved lineskift ta omsyn til om det er adverbet
«attende» eller talordet «attende» som er meint. Medan det på nynorsk
berre er «att-ende» som er brukande.
>> 3. Framlegg/Ide: Eg saknar ei slags «testrekke» («test suite») for
>> bokmål og nynorsk hyphenation/ordeling. Eg skal forklara behovet med
>> eit bruksdøme:
>>
>> Eg har nett no henta ned hyphenation-lister for bokmål og nynorsk ifrå
>> tug.ctan.org[1]. So har eg installert listene, etter beste evne,
>> forsøksvis med nokre tilpassingar, slik programmet mitt (Prince XML)
>> kravde. So har eg prøvd å ta dette i bruk. Med det resultat at eg ser
>> at, ja, orddeling skjer. Men eg forstår ikkje utan vidare om den
>> orddelinga som skjer fylgjer norske orddelingsreglar, eller om det
>> berre er engelsk orddeling applisert på norsk tekst eg ser.
>
> Tru meg, det oppdagar du *veldig* fort. Viss orddelinga ser nokolunde
> riktig ut, har du norsk orddeling. Viss du brukar engelske
> orddelingsmønster, vert det aller meste feil. Du får «nyn-orsk» og
> «bind-es-trek», for eksempel.
Tja. I farten, er det veldig fort både å gjera feil og å ikkje få med
seg det ein burde fått med seg. Men det er klart at eg kan iallfall
prøva å bruka «attende» og «betre» som kontrollord ...
>> Ei slik tekstrekke/testsuite burde ha nokon dømetekstar, der kvar
>> tekst skulle vera delt i to like tekstar, der den eine sida skulle
>> vera utan orddeling, medan den andre skulle ha (manuell/fast/hard)
>> orddeling. Når ein så køyrer testteksten i sitt eige program, skal
>> teksten utan manuell/fast/hard orddeling verta sjåande ut på same måte
>> som teksten med manuell/fast/hard orddeling.
>
> Leddanalysefilene frå Norsk ordbank kan jo brukast til å finna
> hovudorddelingane.
>
> Og viss du vil ha nokre skikkelege (og litt humoristiske) utfordringar
> for orddelingsalgoritmen, kan du sjå på Orddeling-stoppen min (ikkje
> oppdatert på mange år): https://huftis.org/artiklar/orddeling-stoppen/
>
> Og viss du er interessert i automatisk orddeling generelt, anbefaler
> eg Eivind Mikael Lindbråten si (usedvanlege typografisk vakre)
> masteroppgåve om emnet, som du kan lasta ned i PDF-format her:
> https://www.duo.uio.no/handle/10852/44768
Takk. Skal lesa. Men førebels må eg konsentrera meg om å installera dei
tex-listene frå tug.ctan.org og sjekka at dei fungerer …
—
leif halvard silli
Mer informasjon om epostlisten l10n-no.