|
|||||||||||||||||||||||||||
Lars Aronsson writes: > On Sun, 21 Jul 2002, Goran Andersson wrote: > > Jag arbetar på ett nytt system för att lagra och manipulera ordlistor. > > Arbetet går dock inte särskilt fort, så jag är tacksam ifall någon > > skulle vilja hjälpa mig. En beskrivning av systemet är bifogad nedan. > > Den kod jag skrivit hittills (Perl+MySQL) finns att hämta på adressen > > http://217.215.183.103/XDtools-0.1.tar.gz > > Det låter av beskrivningen (jag har inte kollat koden) som om du tar en > lång sats, men inför vad? Har du även data för något/några språk som > följer det här formatet? Eller var ska du få sådana data ifrån? Har det Nej, jag har inget data. Systemet är inte färdigt ännu, och om man lägger ner mycket arbete på att lägga in data, så finns det en risk att arbetet blir bortkastat och måste göras om från början ifall systemet ändras alltför mycket. Däremot kommer jag inom några veckor att fastställa version 0 av systemet och börja bygga upp prototypdatabaser. Data till mitt system kan exempelvis komma från de befintliga svenska och danska ordlistorna. Merparten av de ordformer som finns i de ordlistorna kan automatiskt läggas in i mitt system (med full grammatikinformation). Resten av orden kräver några få manmånaders arbete. Jag tycker att det är alltför primitivt att lagra och hantera SSLUG:s ordlistor som råa listor av ordformer. Den som ursprungligen skapade dem i det formatet borde skämmas. > en tillämpning inom fri programvara, eller något kundprojekt hos Init? All programkod distribueras under GPL. All data som byggs upp ska distribueras under GPL samt även under andra licenser vid behov. > Är du själv lingvist och/eller har ditt projekt någon förankring bland > utbildade/forskande datalingvister, t.ex. vid Uppsala universitet eller > Göteborgs universitet? Nej, jag är inte lingvist. Min förhoppning är att lingvister ska hjälpa till att skapa grammatikdata för diverse språk till mitt system när det är klart att användas. Men i första hand vore det bra om någon som är bevandrad i datalingvistik hjälper till att granska och eventuellt korrigera idéerna i systemet. Jag har tittat runt en del på http://svenska.gu.se/svenskainst.html och blivit beklämd över hur lite av deras material och idéer som görs allmänt tillgängliga. Deras verksamhet kostar miljardbelopp av offentliga medel, men de håller allt sitt material för sig själva för att kunna sälja det för några hundralappar till förlag som exempelvis Norstedts. Men jag hoppas fortfarande på bättring från deras sida, och tar tacksamt emot all form av hjälp därifrån. > Dessa frågor borde besvaras tidigt i din beskrivning, för att spara > läsarens tid och tålamod. OK, ursäkta. Desto bättre då att du ställde frågorna så att jag fick möjlighet att besvara dem :-) > Utan att känna till mer om ditt projekt, vill jag tipsa dig om Wiki som en > teknik för att kollektivt bygga data till den här typen av projekt. För > engelska språket Wikipedia (http://www.wikipedia.com/) och för svenska > mitt egen sajt Susning.nu (http://susning.nu/). Om din ordlista > innehåller ordet hockeyorgel, så går du till http://susning.nu/Hockeyorgel > för att hitta en beskrivning i klartext/hypertext av det ordet. Mitt projekt har en annan inriktning. De databaser som ska byggas med mitt system är framför allt till för att användas av datorprogram för exempelvis stavningskontroll, grammatikkontroll, översättning osv även om de naturligtvis också skulle kunna användas som vanliga ordböcker för att slå upp ord. I mitt system ska man kunna söka på "hockeyorgeln" och få veta att detta är bestämd form, singularis av "hockeyorgel". Däremot ger http://susning.nu/Hockeyorgeln ingen träff. En likhet mellan susning.nu och mitt system är däremot att data kan samlas in kollektivt exempelvis över webben. Och om jag får hämta definitioner för ord från susning.nu så är det till enorm hjälp! -- Göran
|
||||||||||||||
|
||||||||||||||