|
[Főoldal]
|
Módszertani innováció: nagytömegű írásmű objektív rangsorolásának részleges automatizálása
| Rögzítette:Glázer Éva |
Keletkezés dátuma:2010-04-29 |
| Forrás URL: |
Rögzítés dátuma: 2010-04-29 |
A Vidék Hangja Magazin 2009. márciusában pályázatot írt ki a TÁLENTUM 2009 díj elnyerésére. A beérkezett (mintegy két tucat) pályaműből a fődíjra jogosult mű objektív kiválasztása látszólag lehetetlen feladatnak mutatkozott. Éppen ezért a döntéshozók olyan módszertani innovációt kerestek, mellyel minimalizálni és a jelöltektől teljes mértékben függetleníteni lehet az emberi beavatkozások mértékét, formáját. A pályázatértékelés érdekében elvárt módszertani innovációval szemben megfogalmazott elvárás volt továbbá, hogy lehetőség szerint automatizálja a folyamatot, vagyis minimalizálja az élőmunka igényt is.
TALUNTEM 2009 díj: http://www.mnvh.hu/ptPortal/index.php?mod=news&action=showNews&newsid=10217
A hosszas vizsgálódás nyomán kiválasztott megoldás korunk legújabb elemzési megoldásainak hibridizációjával jött létre, s ráadásul az alkalmazott modulok bárki számára ingyenesen hozzáférhetők:
A megoldás
Szövegbányászati modul A weben számos összehasonlító tanulmány foglalkozik a szövegbányászati eljárásokkal (pl. http://ragrawal.wordpress.com/2007/07/17/online-text-mining-tools-webservices/). Az itt jellemzett eljárásokkal szemben megfogalmazott elvárás szerint fontos volt, hogy a kiválasztandó megoldás online működésre legyen képes, vagyis ne kelljen telepíteni. Emellett egy fajta strukturált választ (pl. kulcsszavak rangsorát) adja vissza outputként. Így jutott a választás az alábbi URL-re: http://labs.translated.net/terminology-extraction/
Bár magyar nyelvű szolgáltatás nem állt rendelkezésre, ennek ellenére a rendszer értelmezhető eredményeket volt képes adni. A magyar nyelvi változat hiánya ugyanis egyforma mértékben terhelte az összes pályamű kiértékelését, így nem lehetett érdemi hatással a feltárt (fontosnak vélt) szövegpanelekre.
A szolgáltatás korlátozott méretű szövegek, valós idejű online elemzését kínálja fel, mely eredményeként egy húszelemű kifejezés listát, s ezek %-skálán kifejezett fontosságát jeleníti meg (szinte azonnal).
Hasonlóságelemzési modul
A módszertani fejlesztések (alapvetően) numerikus ágának újszerű irányzata a hasonlóságelemzés (pl. http://miau.gau.hu/myx-free/index.php3?x=e091, ill. http://miau.gau.hu/myx-free/index.php3?x=news&_filterText2=*Y0), mely célja, hogy tetszőleges (context free) tanulási mintákban megbújó összefüggéseket legyen képes automatizáltan feltárni a modell-típus megválasztása után. A plátói ideák, vagyis a legjobb pályaművek kiválasztására az ún. Y0, azaz következmény-változó „nélküli” (monoton következményt szimuláló) modell alkalmas elsődlegesen, hiszen ennek semmi más célja nincs, mint annak bizonyítása, vajon létezhet-e olyan súlyozási/pontozási (szakértői) rendszer, mely alapján egyetlen pályamű sem lenne jogosult a kiemelésre. Ez a megközelítés 2*2 nézetben futtatható: az egyik paraméter kapcsán arról kell dönteni, vajon fontos-e az egyensúly (fenntarthatóság) matematikai közelítése, míg a másik paraméter azt adja meg: akarjuk-e vállalni az egyes mintázatot alkotó dimenziók (attribútumok) Jóságra/Ideálra gyakorlat hatásmechanizmusának definiálását.
Ha nem kívánjuk az egyensúlyi szemléletet preferálni és nem vállaljuk az irányok (ceteris paribus meghatározását), akkor az Y0_MAX_MCM modell kellene használni (vö. clustering, ahol mindegy mi jön ki, ha bele tudjuk magyarázni azt, ami eszünkbe jut róla). Ha vállaljuk az irányok megadását, de továbbra sem kívánjuk a fenntarthatóságot (objektivitást) modellezni, akkor az Y0_MAX_STD eljárás a megfelelő (mely az elemzői belemagyarázásra már csak egy korlátozottabb teret enged meg. Ha az objektivitás fontos, de nem ismerjük a hatásmechanizmusokat, akkor Y0_MIN_MCM modellt futtatunk (mely exploratív, de éppen ezért túltanulásra hajlamos). S végül (egy szerkesztőségi ideál esetén elvárható módon), ha ismerjük az egyes részcélokat, s a legkisebb, de karakterisztikus különbség kimutatása a célunk, akkor választjuk az Y0_MIN_STD modell.
A modell-választás tehát filozófiai szinten dől el, s nem az adott pályaművek, prekoncepciók alapján. Jelen esetben tehát egyértelműen adott volt, hogy a modellező ismeri, mi is a jó az egyes részcélok mentén (vagyis minél több, a VH fókuszába tartozó fogalom legyen minél fontosabb említési pozícióban). A modellező (döntéshozó) nem kíván azonban állást foglalni arról, vajon melyik részcél egy egységnyi hibáját melyik másik részcél hány egységnyi előnye képes kompenzálni. Erre a kérdéssorozatra nincs ugyanis helyes válasz, ill. sok alternatív megoldás lehetséges. Az Y0-modell ezen alternatívák közül keresi ki azok egyikét, mely eredményeként egyes pályaművek biztosan nem tartozhatnak a gyenge, ill. az erős csoportba.
Modulok integrációja
Hogyan kapcsolható/kapcsolandó össze a két modul? A szövegbányászati eljárás tehát minden pályamű (objektum) esetére megadja azt a 20 dimenziót (kulcs-kifejezések fontossági szintjét), s az ezekhez tartozó %-os értékeket, melyek a hasonlóságelemzés inputját (tanulási mintáját) jelentik. Mivel azonban nem egy ideális fogalmi fontossági eloszlás felfedezése a cél, hanem a szerkesztőségi elveknek való megfelelés, így szükség van az objektivitás szempontjából legkritikusabb (leggyengébb) láncszem beiktatására: a szerkesztőség egy megbízott, ill. minden egyes tagja el kell, hogy döntse a pályaművektől elválasztott, ABC-sorba rendezett karakterisztikus kifejezésekről egyenként, vajon (pl. egy 1-5-ös skálán kifejezve) mennyire fontos egy-egy kifejezés a többihez képest?!
Ezen kétségtelenül szubjektív (de legitim és pályamű-független) „tartalmi” bírálat szintén egy mátrixot ad eredményül, melynek sor- és oszlopfejléce azonos a szövegbányászati elemzés tanulási mintájával: a sorok az objektumok (pályaművek), az oszlopok pedig a dimenziók (attribútumok = kiemelt kifejezések fontossági sorrendben). A két mátrix azonos pozíciókban lévő elemeinek szorzata (vagyis szövegbányászati fontosság * szerkesztőségi prioritás) adja a pályaművek 20-20 jóságpontját.
S itt lép be a hasonlóságelemzés. Látszólag nincs is már rá szükség, hiszen a győztes lehetne a jóságpontok összegének maximumát adó objektum. Azonban mégsem mindegy, mely objektum milyen fontosságú kulcsszava milyen értékelést kapott a többi versenytárs azonos szintű kulcsszavaihoz képest. Vagyis a jóságpontok összege esetén elvileg bármilyen (mértékű, arányú) kompenzáció elképzelhető lenne: vagyis az alig említett, de fontos kulcsszavak alapján egyes művek kompenzálhatnák a fontos helyeken gyakran mondott felesleges kifejezések által elveszített jóság-pontjaikat. Ezzel szemben az Y0-modellben az eljárás azt vizsgálja, melyik az a pontozási/súlyozási logika, mely mellett minden objektum egy holtverseny egyidejű győztese, vagyis nincs (nem lehet, nem szabadna) igazi győztest hirdetni. Ha azonban ilyen pontozást nem sikerül beazonosítani, akkor a győztes az, ahol a jóságpontok minimalizálása a legkevésbé sikeres: vö. http://miau.gau.hu/myx-free/files/y0_prize.xls
Összefoglalás
Ha talán nem is minden Olvasó számára triviális minden apró részlet, mégis kimondható, hogy a hibrid megoldás három lépésben egyszerre hatásos és hatékony megoldásra vezet. Az első lépés a szövegbányászati előelemzés, mely teljesen automatizálható. A második lépés a szerkesztőségi állásfoglalások kialakítása pályamű-függetlenül a szövegbányászat keretében feltárt kifejezések kapcsán, mely lépés megkerülhetetlenül szubjektív, s így nem is automatizálható. (Hacsak a pályázati kiírás szövegbányászati karakterisztikáját nem tekintjük ideális állapotnak?!) A harmadik lépés a szerkesztőségi és szövegbányászati rétegek összevonására telepített hasonlóságelemzés, mely ismét csak objektív és teljesen automatizálható.
Alternatív megoldások (best pratices) S ha nem volt elég meggyőző a szakmaiság és az időtakarékosság, akkor – rendhagyó módon – lássuk, mit tettünk volna ezen módszertani innováció nélkül:
A pályaműveket önjelölt, vagy választott bírálóknak illet volna kiadni, s ismerve ezen szakértők leterheltségét olyan nem igazán alakult volna ki, hogy 2-3 bíráló minden művet átolvas. A bírálatra való felkészítés kapcsán egy részletes (de a legnagyobb gondosság mellett is teljesen szubjektív, azaz félreérthető, s érdemben számon sem kérhető) tájékoztatót kellett volna kiadni. Majd a bírálatok alapján testületi ülésen vitatkozva valamilyen szavazásos, pontozásos rendszeren keresztül (ismét csak a mindenkori erőterek martalékaként) győztest hirdetni…
Jövőkép Az ember szerepét (joggal) a középpontból elmozdítani nem akarók számára megnyugtatásul kötelező kitérni arra is, mik a quasi automatizmus gyengéi jelenleg:
· nem képes a dolgozatok szerkesztettségét, · kidolgozottságának érettségét · a gondolatok egymásra épülését · …
érdemben felismerni, vagyis előfordulhat, hogy egy frázis-puffogtató kontár munkát sejtenek győztesnek…
Az automatizmusok és a hatékony ügykezelés pártját fogók számára megjegyzendő: hogy az igazán nemes, emberi szerepet a fenti gyengeségek fokozatos feloldása jelenti. A végső döntés azonban az ember kezében marad, de ez a döntéshozó már bele kell, hogy nézzen az automatizmusok (= sok-sok szövegbányász, IT-specialista, matematikus, informatikus, stb. legkreatívabb gondolatait konzerváló programok) által előállított tükörbe. S ha ennek ellenére vállalja személyes döntést, ám legyen – hiszen a tanulási mintáknak és következményeiknek először meg kell születniük, hogy tanulni lehessen belőlük a robot-szakértőknek…
Pitlik László
|
|