Daewoo DTH-29S7 Manual de usuario

Busca en linea o descarga Manual de usuario para Televisores y monitores Daewoo DTH-29S7. Ari Mustonen PÄÄOSIN OHJAAMATON SANASTON [en] Manual de usuario

  • Descarga
  • Añadir a mis manuales
  • Imprimir
  • Pagina
    / 64
  • Tabla de contenidos
  • MARCADORES
  • Valorado. / 5. Basado en revisión del cliente
Vista de pagina 0
TIETOTEKNIIKAN OSASTO
Ari Mustonen
PÄÄOSIN OHJAAMATON SANASTON POIMINTA
RAKENTEETTOMASTA TEKSTISTÄ
Diplomityö
Tietotekniikan koulutusohjelma
Helmikuu 2014
Vista de pagina 0
1 2 3 4 5 6 ... 63 64

Indice de contenidos

Pagina 1 - RAKENTEETTOMASTA TEKSTISTÄ

TIETOTEKNIIKAN OSASTOAri MustonenPÄÄOSIN OHJAAMATON SANASTON POIMINTARAKENTEETTOMASTA TEKSTISTÄDiplomityöTietotekniikan koulutusohjelmaHelmikuu 2014

Pagina 2 - TIIVISTELMÄ

102. LUONNOLLISEN KIELEN KÄSITTELYNPERUSMENETELMÄTLähtökohtaisesti sanaston kerääminen on yksi LKK-menetelmien sovellus, ja täten sil-lä on vahva teor

Pagina 3 - ABSTRACT

11suoranaisesti erottele sanoja toisistaan, on sanan käsite siltikin olemassa. [8]Sanaa pidetäänkin yhtenä universaalina luonnollisen kielen elementti

Pagina 4 - SISÄLLYSLUETTELO

12Suomessa sanat on perinteisesti luokiteltu morfologisen käyttäytymisen perusteel-la nomineihin, verbeihin sekä taipumattomiin sanoihin. Nominit jaka

Pagina 5

132.2.1. MerkkijonometriikatMonet ohjaamatonta oppimista hyödyntävät LKK-sovellukset hyödyntävät niin sa-nottua ortografista tietoa, eli käytännössä ne

Pagina 6 - ALKULAUSE

14N-grammien poimimista merkkijonoista ja sanojen vertaaminen niiden n-grammienavulla on havainnollistettu kuvassa 2.1.$m mu us st te ek ka al la a$$k

Pagina 7

152.2.4. Minimaalinen kuvauksen pituusMKP kuuluu ohjaamattomasti opetettavien kielimallien ryhmään. Sen yksinkertais-tettu toimintaperiaate on löytää

Pagina 8 - 1. JOHDANTO

16algoritmien toiminta tullaan esittelemään myöhemmin tässä työssä sekä niitä hyödyn-tävien käytännön sovellusten kautta että tarkemmin teoreettiselta

Pagina 9

17Selkokielisesti ilmaistuna, Bayesin mallin mukainen oppija suosii sellaisia hypotee-sejä, joiden mukaan tehty havainto on todennäköinen ja hypotetis

Pagina 10 - PERUSMENETELMÄT

18niitä segmentoimaan uudelleen niin, että jokaisen kappaleen segmentoinnissa hyödyn-netään kaikkien muiden kappaleiden segmentointeja. Kun näin jatke

Pagina 11

19DP (Dirichlettiprosessi) on keskeisessä roolissa ei-parametrisissa Bayesin menetel-missä, sillä sen avulla pystytään mallintamaan ja ratkaisemaan mo

Pagina 12

Mustonen A. (2014) Pääosin ohjaamaton sanaston poiminta rakenteettomastatekstistä. Oulun yliopisto, tietotekniikan osasto, 64 s.TIIVISTELMÄSanaston ka

Pagina 14 - $mustekala$

21P (cn= k|c1:n−1) =Nk− dn − 1 + α, 1 ≤ k ≤ K (2.7)P (cn= K + 1|c1:n−1) =α + d · Kn − 1 + αn = Lisättävän näytteen järjestysnumero.k = Mikä tahansa ei

Pagina 15

22daan lisätä erillisiä adaptorikerroksia [53, 54], joilla prosessilta toiselle siirtyvää tietoavoidaan muuntaa eri muotoon induktion tehostamiseksi.

Pagina 16

233. KATSAUS SANASTON POIMINNAN TUTKIMUKSEENOhjaamatonta sanaston oppimista ja poimintaa on tutkittu aikaisemmin kohtuullisessamäärin, vaikkakin kokon

Pagina 17

243.2. Goldwaterin menetelmäGoldwater esitteli tohtorin väitöskirjassaan Bayesin menetelmään perustuvan sanastonpoimijan. Järjestelmässä oli kaksi vai

Pagina 18

254. SANASTON POIMIJAN OSAT JA MENETELMÄTKuten luvussa 3 todettiin, sanaston poiminta voidaan jakaa kolmeen pääosaan: sanojenerottelu, MI ja SLI. Täss

Pagina 19

26määrää sanavälitietoa on perinteisesti luokiteltu ohjatuiksi tai osittain ohjatuiksi.Uusimmista ohjaamattomista menetelmistä MKP:hen ja transitiotod

Pagina 20

274.1.2. Minimaalinen kuvauksen pituusMKP:hen perustuva sanojen erottelu kuuluu kompressiopohjaisten menetelmien jouk-koon. Kompressiopohjaiset menete

Pagina 21

28Koko merkkijonon segmentointien todennäköisyydet voidaan laskea dynaamisella oh-jelmoinnilla, ja näiden todennäköisyyksien avulla voidaan näytteistä

Pagina 22

29Universaalisuuden kannalta edellä kuvatulla menetelmällä on se toivottu piirre, et-tei se oleta morfologian perustuvan etu- tai jälkiliitteisiin. Ku

Pagina 23

Mustonen A. (2014) Mostly-unsupervised lexicon acquisition from unstructuredtext. University of Oulu, Department of Computer Science and Engineering,

Pagina 24

304.3. Sanaluokan induktioSLI:ssä sanoille johdetaan sanaluokat ilman, että tiedetään yhdenkään sanan luokkaaetukäteen. Siinä voidaan käyttää korkeint

Pagina 25

314.3.3. Bayesiin pohjautuvat menetelmätSuurin osa perinteisistä Bayesiin pohjautuvista SLI-menetelmistä käyttivät pel-kästään MPM:ää klusterointikrit

Pagina 26

325. SANASTON POIMINNAN ARVIOINTISanaston poiminnan eri ratkaisumenetelmien lisäksi on syytä perehtyä siihen, mitenniillä saatuja tuloksia voidaan arv

Pagina 27

33jille voidaan antaa seuraavat selkokieliset merkitykset:• C: Löydetyt oikeat sanat, joiden sanaluokka on oikein.• S: Löydetyt oikeat sanat, joiden s

Pagina 28

345.3. Morfologian induktion arviointiPerinteisesti MI:tä on tyydytty arvioimaan tarkastelemalla asiantuntijoiden voimin,kuinka järkeviä järjestelmän

Pagina 29

35Vβ=(1 + β)hcβh + c(5.3)h =(1 jos H(C|K) = 01 −H(C|K)H(C)jos H(C|K) > 0c =(1 jos H(K|C) = 01 −H(K|C)H(K)jos H(K|C) > 0Vβ= V-mitta.β = Saannin p

Pagina 30

366. RATKAISUN KUVAUSTässä työssä toteutettiin ohjelmisto, joka poimii koneellisesti hyödynnettävää sanastoamerkkaamattomasta korpuksesta. Ratkaisu po

Pagina 31

37Kuva 6.1: Ohjelmiston datavuo. Tekstiä luetaan tiedostosta yksi kappale kerrallaan,ja jokaisesta kappaleesta erotellaan sanat. Erotellut sanat syöte

Pagina 32

38käsitellä tässä työssä sen syvällisemmin, sillä painopiste on ohjaamattomassa sanastonpoiminnassa. Käytännön sovelluksissa asiantuntijoiden merkkauk

Pagina 33

39Kuva 6.3: Sanaston poiminnan aktiviteettidiagrammi. Tekstiä luetaan aluksi kappa-le kerrallaan tiedostosta, ja kappaleet segmentoidaan ja lisätään s

Pagina 34

SISÄLLYSLUETTELOTIIVISTELMÄ ... 2ABSTRACT...

Pagina 35

40Kuva 6.4: Merkkijonon segmentoinnin aktiviteettidiagrammi. Sanoja eroteltiin yksitel-len lopusta alkaen, kunnes enempää sanoja ei ollut jäljellä. Yk

Pagina 36 - 6. RATKAISUN KUVAUS

41Pstr(c1...ck) =P (c1...ck, k|ΘC)Pcorr(k|c1...ck)P (k, ΘC)(6.1)Pstr(c1...ck, k|ΘC) =kYi=1P (ci|c1...ci−1)Pstr(c1...ck) = Koko merkkijonon todennäköis

Pagina 37

42Kuva 6.5: Sanan logaritmisen todennäköisyyden taaksepäin laskemisen aktiviteettidia-grammi.Algoritmin toiminta perustuu siihen, että kaikkien hypote

Pagina 38

43Pfwd(w1, w2) =(Pbigram(w1, w2)Ps(w2)Pm(w1w2) jos w16= $ ja w26= $Pbigram(w1, w2) muuten(6.3)Ps(w) = 1 − Psuff ix(w)Pm(c0...ck) = 1 − maxi=1...k[Pmor

Pagina 39

44maan tapaan kuin sanojen erottelussakin. Näistä prosesseista saatuja todennäköisyyk-siä käytettiin sellaisenaan eri morfologiasegmentointien todennä

Pagina 40

45Kuva 6.8: MI:n MH-siirtojen kutsuminen sekä MH-siirto MERGE, joka yhdistää pi-demmän vartalon lyhyempään, pidentäen näin sen päätteiden pituuksia.6.

Pagina 41

46Kuva 6.9: MI:n käyttämä MH-siirto SPLIT, joka hajottaa yhden vartalon useaksi pi-demmäksi vartaloksi, lyhentäen näin sen päätteiden pituuksia.Kuva 6

Pagina 42

47Päätteen todennäköisyys laskettiin myös PYP:n ja HPYP:n avulla. Suurin ero var-talon todennäköisyyden laskemiseen oli kuitenkin, että tyhjälle päätt

Pagina 43

48eli klusterointi pohjautui pelkästään ortografiaan, eikä distributionaalista tietoa hyö-dynnetty.Klusteroiti toteutettiin kuvan 6.12 aktiviteettidiag

Pagina 44

49Kuva 6.13: Sanaston koostamisen aktiviteettidiagrammi.

Pagina 45

5.2. Sanojen erottelun arviointi... 335.3. Morfologian induktion arviointi...

Pagina 46

507. RATKAISUN TESTAAMINEN JA MITTAUSTULOKSETTässä osiossa arviodaan, miten hyvin ratkaisu saavutti sille asetetut vaatimukset.Aluksi tarkastellaan ra

Pagina 47

51koostettiin sanaston koostajalla, ja asiantuntijan koostamiseen käyttämä aika mitattiin.Koostamisesta saatuja perusmuotoja ja sanaluokkia verrattiin

Pagina 48

52syötteellä tuotettiin 3.8 oikeellista sanan ja sanaluokan yhdistelmää työminuuttia koh-ti. Kun sanaluokkien oikeellisuutta ei huomioida, saatiin 19.

Pagina 49

5300.20.40.60.810.5 1 1.5 2 2.5 3TarkkuusSaantiF-mitta00.20.40.60.810.5 1 1.5 2 2.5 3TarkkuusSaantiF-mittaKuva 7.2: Sanojen erottelun F-mitan arvo suo

Pagina 50

5400.20.40.60.8110 20 30 40 50 60 70 80 90 100TarkkuusSaantiF-mitta00.20.40.60.8110 20 30 40 50 60 70 80 90 100TarkkuusSaantiF-mittaKuva 7.3: MI:n var

Pagina 51

55Sheet1Page 1Pääte Lukumäärä Pääte Lukumäärä Pääte Lukumääräa 11390 e 11834た967n 11025 n 7218語684ä 4068 nd 5537的573i 3721 s 5335学488en 2180 r 2837る。3

Pagina 52

56Sanojen erottelun tuloksissa mielenkiintoista oli, että erottelijan oppimisnopeus olivarsin korkea. Tämän osoittaa se, että F-mitan arvo vakautui en

Pagina 53

578. TYÖN JATKOKEHITYSTässä työssä toteutettua ratkaisua voitaisiin kehittää monin tavoin, ja tuloksia sekä mo-nikielisyyden tukea näin parantaa. Selk

Pagina 54

589. YHTEENVETOTässä diplomityössä tehtiin katsanto uusimpiin sanaston poiminnan menetelmiin jateoriaan sekä esiteltiin niiden pohjalta suunniteltu ja

Pagina 55

5910. LÄHTEET[1] Zernik U (1991) Lexical acquisition: exploiting on-line resources to build alexicon. Associates 9: 429.[2] Mikheev A (1997) Automatic

Pagina 56

ALKULAUSEHaluan kiittää tämän diplomityön valvojaa, Mika Rautiaista, hänen luonnollisen kielenkäsittelyyn liittyvästä asiantuntemuksestaan. Hänen alku

Pagina 57 - 8. TYÖN JATKOKEHITYS

60[18] Ukkonen E (1992) Approximate string-matching with q-grams and maximalmatches. Theoretical Computer Science 92(1): 191–211.[19] Gravano L, Ipeir

Pagina 58 - 9. YHTEENVETO

61[34] Metropolis N, Rosenbluth AW, Rosenbluth MN, Teller AH & Teller E (1953)Equation of state calculations by fast computing machines. The journ

Pagina 59 - 10. LÄHTEET

62[51] Teh YW, Jordan MI, Beal MJ & Blei DM (2006) Hierarchical dirichlet processes.Journal of the American Statistical Association 101(476).[52]

Pagina 60

63[65] Ando RK & Lee L (2000) Mostly-unsupervised statistical segmentation of japa-nese: Applications to kanji. In: Proceedings of the 1st North A

Pagina 61

64[79] Goldwater S & Griffiths T (2007) A fully bayesian approach to unsupervised part-of-speech tagging. In: Annual meeting-association for comput

Pagina 62

LYHENTEIDEN JA MERKKIEN SELITYKSETLKK Luonnollisen kielen käsittelyLSA Latentti semanttinen analyysiMKP Minimaalinen kuvauksen pituusMH Metropolis-Has

Pagina 63

81. JOHDANTOIhmisten välinen viestintä ja keräämä tieto on suurelta osin esitetty jollakin meillekaikille tutuista ja helposti lähestyttävistä luonnol

Pagina 64

9eivät vielä täysin vastaa esimerkiksi kaikkiin monikielisyyden asettamiin haasteisiin.Jos näiden menetelmien jäljelle jäävät ongelmat voitaisiin ratk

Comentarios a estos manuales

Sin comentarios