SkÃ¥ne Sjælland Linux User Group - http://www.sslug.dk Forside   Tilmelding   Postarkiv   Forum   Kalender   Søg
MhonArc Dato: [Date Prev] [Kronologisk oversigt] [Date Next]   TrÃ¥d: [Date Prev] [Oversigt trÃ¥de] [Date Next]   MhonArc
 

Re: [LOCALE] sv ispell



Quoting Jonas Bosson <sslug@sslug>:

> Jag arbetar med en sökmotor och funderar en hel del på källor för
> gramatisk eller lingvistisk taggning. Se babel.illuminet.se. (maillista
> precis startad)

Det verkar vara ett bra initiativ. Är detta ett nytt projekt som du startar
från grunden? Är tanken att stödja fler språk än svenska - webbsidorna är ju
på engelska?

> Jag saknar några finesser i ispell som sammansatta ord, som nu stöds i
> myspell. Kevin B. Hendricks / myspell sa "I still don't know why the
> Swedish OOo dictionary people do not enable compound support in the OOo
> Swedish dictionary.  It seems a shame."

Det finns ett primitivt stöd för sammansatta ord i ispell. Man kan
välja att alla kombinationer av två ord ska betraktas som ett nytt giltigt
ord, eller man kan markera vilka ord som får ingå i sammansättningar.
Man kan också markera böjningar som inte är giltiga som enskilda ord
men som får ingå i sammansättningar, t.ex. "hyres" eller "vecko".

Att den svenska myspell-ordlistan inte har stöd för sammansättningar beror
förmodligen på att ingen har tagit sig samman och lagt till stödet
(jag är inte själv bekant med myspell).

> Borde man inte kunna splitta sammansatta ord som folk har lagt till och
> därigenom stödja 'compound support'. Finns det någon plan för det, eller
> vill ni att jag ska försöka..?

Ja, gör ett försök! Hör av dig och berätta vad som krävs.

> Utöver detta vill jag bygga upp en referensbas för fria korpusar som man
> kan tagga (med RDF) för att förfina och statistisk ranka ordlisor,
> ontologier, synonymer eller regler. Avstavning kan t.ex. byggas från
> compound data.
> 
> Med flera små källor, som jag gärna ser ... inte minst för att bygga
> tillämpningar på den semantiska webben - kan forskning och open source
> ta jämna kliv med kommersiell programvara.
> 
> Har fler än jag frågat efter detta? 

Ja, vi är flera som saknar fri svensk språkdata!
Åtminstone gör jag också det. För övrigt inbillar jag mig att det inte
kan vara särskilt svårt att få ihop ganska mycket material av hygglig
kvalitet om man bara gör ett seriöst försök...

> Finns det stupade på fältet?
> Finns det andra projekt?

Jag håller på med ett projekt som kallas för "eXtensible Dictionary" (XD). 
XD går ut på att skapa ett system som kan lagra "alla" former av språkdata.
En enkel demo finns på http://217.215.183.103/. Demon använder material
från den  svenska ispell-ordlistan, och är (liksom förmodligen också din
databas http://babel.illuminet.se/data/se/) ännu bara att betrakta som
ett exempel på vad man kan göra. Jag hoppas att snart (omkring den 10 mars)
få XD färdigt så att man kan börja använda det för att samla in språkdata.

Jag är för övrigt öppen för samarbete om du är intresserad :-)

--
Göran


 
Forside   Tilmelding   Postarkiv   Oversigt   Kalender   Søg

 
 
Henvendelse vedrørende websiderne til <www_admin>. Senest ændret 2005-08-10, klokken 20:53
Denne side vedligeholdes af MHonArc .