TIETOTEKNIIKAN OSASTOAri MustonenPÄÄOSIN OHJAAMATON SANASTON POIMINTARAKENTEETTOMASTA TEKSTISTÄDiplomityöTietotekniikan koulutusohjelmaHelmikuu 2014
102. LUONNOLLISEN KIELEN KÄSITTELYNPERUSMENETELMÄTLähtökohtaisesti sanaston kerääminen on yksi LKK-menetelmien sovellus, ja täten sil-lä on vahva teor
11suoranaisesti erottele sanoja toisistaan, on sanan käsite siltikin olemassa. [8]Sanaa pidetäänkin yhtenä universaalina luonnollisen kielen elementti
12Suomessa sanat on perinteisesti luokiteltu morfologisen käyttäytymisen perusteel-la nomineihin, verbeihin sekä taipumattomiin sanoihin. Nominit jaka
132.2.1. MerkkijonometriikatMonet ohjaamatonta oppimista hyödyntävät LKK-sovellukset hyödyntävät niin sa-nottua ortografista tietoa, eli käytännössä ne
14N-grammien poimimista merkkijonoista ja sanojen vertaaminen niiden n-grammienavulla on havainnollistettu kuvassa 2.1.$m mu us st te ek ka al la a$$k
152.2.4. Minimaalinen kuvauksen pituusMKP kuuluu ohjaamattomasti opetettavien kielimallien ryhmään. Sen yksinkertais-tettu toimintaperiaate on löytää
16algoritmien toiminta tullaan esittelemään myöhemmin tässä työssä sekä niitä hyödyn-tävien käytännön sovellusten kautta että tarkemmin teoreettiselta
17Selkokielisesti ilmaistuna, Bayesin mallin mukainen oppija suosii sellaisia hypotee-sejä, joiden mukaan tehty havainto on todennäköinen ja hypotetis
18niitä segmentoimaan uudelleen niin, että jokaisen kappaleen segmentoinnissa hyödyn-netään kaikkien muiden kappaleiden segmentointeja. Kun näin jatke
19DP (Dirichlettiprosessi) on keskeisessä roolissa ei-parametrisissa Bayesin menetel-missä, sillä sen avulla pystytään mallintamaan ja ratkaisemaan mo
Mustonen A. (2014) Pääosin ohjaamaton sanaston poiminta rakenteettomastatekstistä. Oulun yliopisto, tietotekniikan osasto, 64 s.TIIVISTELMÄSanaston ka
21P (cn= k|c1:n−1) =Nk− dn − 1 + α, 1 ≤ k ≤ K (2.7)P (cn= K + 1|c1:n−1) =α + d · Kn − 1 + αn = Lisättävän näytteen järjestysnumero.k = Mikä tahansa ei
22daan lisätä erillisiä adaptorikerroksia [53, 54], joilla prosessilta toiselle siirtyvää tietoavoidaan muuntaa eri muotoon induktion tehostamiseksi.
233. KATSAUS SANASTON POIMINNAN TUTKIMUKSEENOhjaamatonta sanaston oppimista ja poimintaa on tutkittu aikaisemmin kohtuullisessamäärin, vaikkakin kokon
243.2. Goldwaterin menetelmäGoldwater esitteli tohtorin väitöskirjassaan Bayesin menetelmään perustuvan sanastonpoimijan. Järjestelmässä oli kaksi vai
254. SANASTON POIMIJAN OSAT JA MENETELMÄTKuten luvussa 3 todettiin, sanaston poiminta voidaan jakaa kolmeen pääosaan: sanojenerottelu, MI ja SLI. Täss
26määrää sanavälitietoa on perinteisesti luokiteltu ohjatuiksi tai osittain ohjatuiksi.Uusimmista ohjaamattomista menetelmistä MKP:hen ja transitiotod
274.1.2. Minimaalinen kuvauksen pituusMKP:hen perustuva sanojen erottelu kuuluu kompressiopohjaisten menetelmien jouk-koon. Kompressiopohjaiset menete
28Koko merkkijonon segmentointien todennäköisyydet voidaan laskea dynaamisella oh-jelmoinnilla, ja näiden todennäköisyyksien avulla voidaan näytteistä
29Universaalisuuden kannalta edellä kuvatulla menetelmällä on se toivottu piirre, et-tei se oleta morfologian perustuvan etu- tai jälkiliitteisiin. Ku
Mustonen A. (2014) Mostly-unsupervised lexicon acquisition from unstructuredtext. University of Oulu, Department of Computer Science and Engineering,
304.3. Sanaluokan induktioSLI:ssä sanoille johdetaan sanaluokat ilman, että tiedetään yhdenkään sanan luokkaaetukäteen. Siinä voidaan käyttää korkeint
314.3.3. Bayesiin pohjautuvat menetelmätSuurin osa perinteisistä Bayesiin pohjautuvista SLI-menetelmistä käyttivät pel-kästään MPM:ää klusterointikrit
325. SANASTON POIMINNAN ARVIOINTISanaston poiminnan eri ratkaisumenetelmien lisäksi on syytä perehtyä siihen, mitenniillä saatuja tuloksia voidaan arv
33jille voidaan antaa seuraavat selkokieliset merkitykset:• C: Löydetyt oikeat sanat, joiden sanaluokka on oikein.• S: Löydetyt oikeat sanat, joiden s
345.3. Morfologian induktion arviointiPerinteisesti MI:tä on tyydytty arvioimaan tarkastelemalla asiantuntijoiden voimin,kuinka järkeviä järjestelmän
35Vβ=(1 + β)hcβh + c(5.3)h =(1 jos H(C|K) = 01 −H(C|K)H(C)jos H(C|K) > 0c =(1 jos H(K|C) = 01 −H(K|C)H(K)jos H(K|C) > 0Vβ= V-mitta.β = Saannin p
366. RATKAISUN KUVAUSTässä työssä toteutettiin ohjelmisto, joka poimii koneellisesti hyödynnettävää sanastoamerkkaamattomasta korpuksesta. Ratkaisu po
37Kuva 6.1: Ohjelmiston datavuo. Tekstiä luetaan tiedostosta yksi kappale kerrallaan,ja jokaisesta kappaleesta erotellaan sanat. Erotellut sanat syöte
38käsitellä tässä työssä sen syvällisemmin, sillä painopiste on ohjaamattomassa sanastonpoiminnassa. Käytännön sovelluksissa asiantuntijoiden merkkauk
39Kuva 6.3: Sanaston poiminnan aktiviteettidiagrammi. Tekstiä luetaan aluksi kappa-le kerrallaan tiedostosta, ja kappaleet segmentoidaan ja lisätään s
SISÄLLYSLUETTELOTIIVISTELMÄ ... 2ABSTRACT...
40Kuva 6.4: Merkkijonon segmentoinnin aktiviteettidiagrammi. Sanoja eroteltiin yksitel-len lopusta alkaen, kunnes enempää sanoja ei ollut jäljellä. Yk
41Pstr(c1...ck) =P (c1...ck, k|ΘC)Pcorr(k|c1...ck)P (k, ΘC)(6.1)Pstr(c1...ck, k|ΘC) =kYi=1P (ci|c1...ci−1)Pstr(c1...ck) = Koko merkkijonon todennäköis
42Kuva 6.5: Sanan logaritmisen todennäköisyyden taaksepäin laskemisen aktiviteettidia-grammi.Algoritmin toiminta perustuu siihen, että kaikkien hypote
43Pfwd(w1, w2) =(Pbigram(w1, w2)Ps(w2)Pm(w1w2) jos w16= $ ja w26= $Pbigram(w1, w2) muuten(6.3)Ps(w) = 1 − Psuff ix(w)Pm(c0...ck) = 1 − maxi=1...k[Pmor
44maan tapaan kuin sanojen erottelussakin. Näistä prosesseista saatuja todennäköisyyk-siä käytettiin sellaisenaan eri morfologiasegmentointien todennä
45Kuva 6.8: MI:n MH-siirtojen kutsuminen sekä MH-siirto MERGE, joka yhdistää pi-demmän vartalon lyhyempään, pidentäen näin sen päätteiden pituuksia.6.
46Kuva 6.9: MI:n käyttämä MH-siirto SPLIT, joka hajottaa yhden vartalon useaksi pi-demmäksi vartaloksi, lyhentäen näin sen päätteiden pituuksia.Kuva 6
47Päätteen todennäköisyys laskettiin myös PYP:n ja HPYP:n avulla. Suurin ero var-talon todennäköisyyden laskemiseen oli kuitenkin, että tyhjälle päätt
48eli klusterointi pohjautui pelkästään ortografiaan, eikä distributionaalista tietoa hyö-dynnetty.Klusteroiti toteutettiin kuvan 6.12 aktiviteettidiag
49Kuva 6.13: Sanaston koostamisen aktiviteettidiagrammi.
5.2. Sanojen erottelun arviointi... 335.3. Morfologian induktion arviointi...
507. RATKAISUN TESTAAMINEN JA MITTAUSTULOKSETTässä osiossa arviodaan, miten hyvin ratkaisu saavutti sille asetetut vaatimukset.Aluksi tarkastellaan ra
51koostettiin sanaston koostajalla, ja asiantuntijan koostamiseen käyttämä aika mitattiin.Koostamisesta saatuja perusmuotoja ja sanaluokkia verrattiin
52syötteellä tuotettiin 3.8 oikeellista sanan ja sanaluokan yhdistelmää työminuuttia koh-ti. Kun sanaluokkien oikeellisuutta ei huomioida, saatiin 19.
5300.20.40.60.810.5 1 1.5 2 2.5 3TarkkuusSaantiF-mitta00.20.40.60.810.5 1 1.5 2 2.5 3TarkkuusSaantiF-mittaKuva 7.2: Sanojen erottelun F-mitan arvo suo
5400.20.40.60.8110 20 30 40 50 60 70 80 90 100TarkkuusSaantiF-mitta00.20.40.60.8110 20 30 40 50 60 70 80 90 100TarkkuusSaantiF-mittaKuva 7.3: MI:n var
55Sheet1Page 1Pääte Lukumäärä Pääte Lukumäärä Pääte Lukumääräa 11390 e 11834た967n 11025 n 7218語684ä 4068 nd 5537的573i 3721 s 5335学488en 2180 r 2837る。3
56Sanojen erottelun tuloksissa mielenkiintoista oli, että erottelijan oppimisnopeus olivarsin korkea. Tämän osoittaa se, että F-mitan arvo vakautui en
578. TYÖN JATKOKEHITYSTässä työssä toteutettua ratkaisua voitaisiin kehittää monin tavoin, ja tuloksia sekä mo-nikielisyyden tukea näin parantaa. Selk
589. YHTEENVETOTässä diplomityössä tehtiin katsanto uusimpiin sanaston poiminnan menetelmiin jateoriaan sekä esiteltiin niiden pohjalta suunniteltu ja
5910. LÄHTEET[1] Zernik U (1991) Lexical acquisition: exploiting on-line resources to build alexicon. Associates 9: 429.[2] Mikheev A (1997) Automatic
ALKULAUSEHaluan kiittää tämän diplomityön valvojaa, Mika Rautiaista, hänen luonnollisen kielenkäsittelyyn liittyvästä asiantuntemuksestaan. Hänen alku
60[18] Ukkonen E (1992) Approximate string-matching with q-grams and maximalmatches. Theoretical Computer Science 92(1): 191–211.[19] Gravano L, Ipeir
61[34] Metropolis N, Rosenbluth AW, Rosenbluth MN, Teller AH & Teller E (1953)Equation of state calculations by fast computing machines. The journ
62[51] Teh YW, Jordan MI, Beal MJ & Blei DM (2006) Hierarchical dirichlet processes.Journal of the American Statistical Association 101(476).[52]
63[65] Ando RK & Lee L (2000) Mostly-unsupervised statistical segmentation of japa-nese: Applications to kanji. In: Proceedings of the 1st North A
64[79] Goldwater S & Griffiths T (2007) A fully bayesian approach to unsupervised part-of-speech tagging. In: Annual meeting-association for comput
LYHENTEIDEN JA MERKKIEN SELITYKSETLKK Luonnollisen kielen käsittelyLSA Latentti semanttinen analyysiMKP Minimaalinen kuvauksen pituusMH Metropolis-Has
81. JOHDANTOIhmisten välinen viestintä ja keräämä tieto on suurelta osin esitetty jollakin meillekaikille tutuista ja helposti lähestyttävistä luonnol
9eivät vielä täysin vastaa esimerkiksi kaikkiin monikielisyyden asettamiin haasteisiin.Jos näiden menetelmien jäljelle jäävät ongelmat voitaisiin ratk
Comentarios a estos manuales