[l10n-no] Fri programvare for automatoversetting til/fra norsk?

Kevin Brubeck Unhammer unhammer at mm.st
Fre 16. Jul 2021 12:55:28 PDT


Karl Ove Hufthammer <karl at huftis.org> čálii:

> Kevin Brubeck Unhammer skreiv 25.06.2021 11:38:
>> https://translatelocally.com/  er ei ferdig pakke med GUI og ferdigtrente
>> modellar (nevral maskinomsetjing). Kode og data er fritt. Og
>> i motsetning til det meste av NMT så kan det køyrast utan enorme
>> datasenter. Ikkje så mange språkpar enno, men det ser ut som eit aktivt
>> miljø, og norsk-modellane er overraskande bra i forhold til ressurskrav.
>
> Korleis er kvaliteten samanlikna med for eksempel Google
> Translate. Altså, kva tyder «overraskande bra»?

Prøv det? Elles er det eit lite døme her:
https://nitter.kavin.rocks/pic/video.twimg.com%2Ftweet_video%2FE3DoLQIXwAQn2eL.mp4
Google har ikkje nynorsk, så ikkje heilt samanliknbart. Om det er
akseptabelt for deg avheng jo av kva du skal bruka det til, men om eg
t.d. skulle omsetja eit brev som eg sjølv hadde skrive på nynorsk til
engelsk, så hadde eg spart tid på å ta det gjennom translateLocally og
redigera framfor å gjera det manuelt.

> Eg las om automatisk omsetting basert på parallellkorpus på
> https://www.nm.no/app/uploads/2020/03/nt-02-19.pdf. Det var då snakk
> om den såkalla nynorskroboten, som omset frå bokmål til nynorsk, noko
> som burde vore mykje enklare enn omsetting til/frå engelsk. I
> artikkelen står det:
>
>    I NPK og NTB har vi eit korpus på kring 40 000 tekstar som finst
>    både på bokmål og nynorsk. Etter eit par månader såg vi at det
>    likevel var for lite, sjølv om vi har forstått at dette er eit av
>    dei største parallellkorpusa i Noreg. Det krev enormt mykje data i
>    eit slikt prosjekt. Ikkje ein gong Språkbanken, som er ei nasjonal
>    korpussamling administrert av Nasjonalbiblioteket, har eit stort nok
>    parallellkorpus.
>
> Nynorskroboten vart i staden basert på Apertium, og har no blitt veldig bra.

Ein av grunnane til at rein korpusbasert omsetjing mellom nynorsk og
bokmål blir så vanskeleg er valfridommen. (Menneskelege) omsetjarar
ønsker ein streng norm, og den skal gjerne vera ulik norma til
kollegaen, mens språkdata til maskinlæring har tekst i eit utall ulike
normer, ofte med interne inkonsekvensar og småfeil òg.

Nyanserte normeringspreferansar er fullt mogleg å ordna i regelbaserte
system som Apertium (prøv «Normval»-knappen på
https://beta.apertium.org/index.nno.html#translation?dir=nob-nno&q=vi%20liker%20%C3%A5%20sitte%20p%C3%A5%20bryggekanten%20mens%20vi%20piller%20krabbe
) der ein har full kontroll over kvar analyse, men er svært vanskeleg
for eit nevralnett å læra seg frå så lite data som det finst for
nynorsk.
-------------- neste del --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 832 bytes
Desc: ikke tilgjengelig
URL: <http://lister.huftis.org/pipermail/l10n-no-huftis.org/attachments/20210716/d7a4e0cc/attachment.sig>


Mer informasjon om epostlisten l10n-no.