SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Maskinoversættelse.



Jeg har tænkt lidt over problemet med maskinassisteret oversættelse.
Problemet er at der er mindst tre lag i en tekst der skal arbejde
sammen:

1. De enkelte ord
2. Grammatiken
3. Semantikken

Et eksempel:
 1) Han er dyr
De enkelte ord kan oversættes hver for sig:
 He is expensive.

Men dette går galt med det næste eksempel:
 2) Det dyr er en han.
Som jo ikke skal oversættes:
 That expensive is a he.
Men
 That animal is a male.

Her har vi brug for grammatiken:
 i 2) er dyr et navneord og skal altså oversættes med animal
 og ikke expensive. Ligeså er han i 2) et navneord og ikke et
 personligt stedord og skal altså oversættes med male og ikke he

Og semantikken er vigtig i sætninger:
 3) Han gør sig dyr.
Hvordan skal det oversættes fornuftigt? Formentlig er det ikke ligetil at
finde end passende oversættelse uden på en eller anden måde at have gjort
sig meningen klar.

Alt dette er vist ikke noget nyt for lingvistikerne. Det er det næste nok
heller ikke:
De tre lag synes at være mere og mere krævende at klare maskinelt.

1. Klares relativt nemt med en stor oversættelses ordbog.
han -> he,male, etc..

2. Er lidt hårdere. Det kræver nok en del indsigt at skrive et godt
program til grammatisk analyse.

3. Her bliver det endnu mere svært. Det er nok fuldstændig utopisk at
sætte formelle regler op, så hvordan kan vi overhovedet angribe problemet?

Og til sidst skulle vi jo helst have de tre lag til at virke sammen!

Måske skulle man lade sig inspirere af hvordan vi selv oversætter. Det har
jeg forsøgt i følgende løse forslag.

Grundlaget er en ordbog som for hvert ord indeholder:

1. Oversættelser
2. Ordklasse (grammatik)
3. Henvisninger til sammenhænge.

To eksempler på ord:

han ->male
navneord
"Det er en han."

han ->he
personligt stedord
"Han er et dyr"

Bemærk at ord der staves ens optræder som forskellige indgange.

Udover ordbogen skal vi have et grammatisk værktøj men mere om det senere.

Endelig skal vi have en samling tekster som er kæder af henvisninger til
ord, samt i visse tilfælde oversættelse af disse kæder.  De i ordene
omtalte henvisninger til sammenhænge er simpelthen bare
den omvendte afbildning, dvs. henvisninger fra ord til placeringer i
kæderne.

Givet en tekst skal vi nu først finde ud af hvilke ord den består af.

Vi laver en "kæde" A hvor hvert led har henvisninger til de mulige
ord. Dette kan gøres med opslag i ordbogen.

(A) O
   / \
O-O   O-O
   \ /
    O
fig 1. kæden (A) er ikke en  rigtig kæde da den er tvetydig for nogle ord.

Vi skal nu oversætte denne kæde ved at finde og vurderer kæder B på det
ønskede andet sprog. 

Der er to måde at finde (del)kæder på det nye sprog:
1) Finde veje i "kæden" A som allerede har oversættelser.
2) Laver kæder ved at oversætte hvert ord i en vej v.hj.a. ordbogen.

Mange veje i kæden A kan udelukkes udfra grammatiske kriterier:
   Er den foreslåede vej i kæden (A) grammatisk korrekt på original 
   sproget?   
Til dette skal vi bruge det omtalte grammatiske værktøj.

De hermed konstruerede oversættelse skal nu vurderes. 
To kriterier synes at kunne tages i anvendelse: 
1) grammatisk kontrol, er kæden gyldig?
2) semantisk vurdering. Hvor meget ligner kæden andre kæder i det
oversatte sprog?

Det sidste "ligner" kræver naturligvis en nærmere specifikation som nok
skal tilpasses de enkelte sprog.

Ideen er nu at fremlægge de bedst vurderede kæder for oversætteren.
Hvis han godkender en af kæderne bliver denne regnet med næste gang der
skal oversættes. På denne måde bliver erfaringen oplagret, og
oversættelserne forhåbentlig bedre og bedre.

Der er nogle oplagte forbedringer mulige. f.eks. kunne grammatikken også
indeholde en slags "oversættelse" så der blev taget højde for 
forskelle i ordstillinger og den slags.

Puha. Det blev længere end jeg havde regnet med. Gad vide om der er nogen
der gider at læse det hele igennem? Anyway, nu er det skrevet så kan jeg
komme videre med dagens arbejde. Hvis du har læst helt her ned til vil jeg
meget gerne høre din menning.

Sune






 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:52
Denne side vedligeholdes af MHonArc .