DIGAR      DEA     ERB     ISIKUD/KOLLEKTIIVID     Andmekaevurile     Näited

Milleks saab kasutada ajalehekorpuseid

Ligipääsu täistekstidele võib kasutada üsna erinevatel viisidel. Siin on toodud paar lihtsamat töötluse näidist kui me otsiksime tekstidest üht fraasi. Nimelt otsime siin tekste, mis sisaldavad nime Marlene Dietrich.

Näidisotsing Marlene Dietrich põhjal

Kui me otsime nime “marlene dietrich” (jutumärkides saame otsida tervikfraasi), saame me ülevaate sellest, kui palju on juttu olnud Marlene Dietrichis dea.digar.ee korpustes. Otsingust saame teada, et leiti 1,486 vastet - ehk natuke rohkem kui me tahaks kohe ühekaupa läbi vaadata. All on antud kuvatõmmis otsingust “marlene dietrich” dea.digar.ee otsingus. Korda otsingut siit.

Koondame kokku artiklite täistekstid

Selleks teeme GLAMlab abivahendi abil päringu ja kogume kokku kõik tekstid, mis selle otsinguga on leitavad. Need 1,468 vastest avalikult kättesaadavaid oli 1,318 ja need omakorda paiknevad kokku 818 artiklis.

Millal Dietrichist räägiti?

Kui me oleme teinud sõnaotsingu, siis esmajärjekorras võib meid huvitada, millal need tekstid ilmusid. Need tulemused on kuvatud all - iga tekst on esindatud täpiga ning liigutades hiirt üle punktide näeme teksti kohta rohkem infot. Lisaks saame teksti lugeda lehe algses kontekstis DIGARis punktile vajutades.

Ajalehe ja perioodika tekstide hulgast näeme, et kõige rohkem oli artikleid 1930ndatest aastatest - siis kui toimus ka Marlene Dietrichi tähelend maailmas ning nagu näha ei jäänud Eesti meedia sellest ka kõrvale. Nõukogude ajast tekste eriti ei leidu - sellest ajast jäi tema tegevus “raudse eesriide” taha, aga siin on oluline ka silmas pidada, et nõukogude aja ajaleheväljaandeid on seni kollektsiooni kaasatud suhteliselt vähe. Praegu on digiteerimisel kollektsioon nõukogude aja kohalikke ajalehti, mis saavad seda pilti muuta.

Kui me otsiks mõnd levinumat sõna (nt kui tahame uurida nt arhitektuurialaste artiklite hulka või keskkonna käsitlust pika aja jooksul), hakkab veel olulisemat rolli mängima osakaal terviktekstidest - võib arvata et aastatest kui on kollektsioonis rohkem artikleid, on ka leitud rohkem vasteid. Sel juhul vaadeldakse näiteks, et mitmes protsendis artiklitest oli sellest teemast juttu või kui palju oli fraasi vasteid tuhande sõna kohta. Kuna Marlene Dietrichi artikleid on suhteliselt vähe, näeme üldpilti ka puhtalt artiklite hulga pealt.

Millistes ajalehtedes ja ajakirjades Dietrichist räägiti?

Seejärel võime küsida, et millistes väljaannetest temast räägiti. Selleks saame kasutada kollektsiooni juurde lisatud metainfot ning värvida need punktid väljaande nime alusel. Näeme, et peamised lehed 1930ndatel on Tallinnast - Postimees, Eesti Päevaleht, Sõnumed, Uus Eesti ja lisaks ajakiri Film ja Elu, mis mõistagi räägib palju filmidest. Kohalikud lehed on esindatud, aga märksa harvemini. Võib arvata, et välismaa lavalegendid olid siis pigem suuremate linnade jutt.

Tüüpartiklid

Me võime proovida ka saada kiiret ülevaadet artiklite sisudest. Nimelt, lohistades hiirt üle tabeli, näeme artikli pealkirja ja algusosa ning võime märgata, et see on tihti üpris sarnane. Võime proovida tekste selle alusel grupeerida. Nõnda võtame iga artikli 4 esimest tähte ja värvime nad selle järgi ära. Värvitud on ära kõik algused, mis esinesid üle kümne korra. Näeme, et hulk artikleid järgisid mõnd tüüpformaati. Näiteks 1931-1932 on mitmed artiklid pealkirjaga, kuhu minna õhtul, kus on Dietrichist juttu. Tihti pakuti niisiis kinokava. Samas rollis on ka “Tartu teated” ja “Tartu ringvaade” ning sõnaga “Kino” algavad artiklid. Nõnda on võimalik saada kiiret ülevaadet standardformaadis artiklitest. Mõistagi algab hulk artikleid sõnaga Marlene, aga need võivad olla juba üpris erineva sisuga.

Artiklite tekstid ja nende töötlus

Kui me saame kätte terviktekstid, siis on jutt neil nii nagu algses väljaandes kirjas oli ja digiteerimise käigus võib olla tekkinud lisavigu tuvastades digipiltidelt teksti. Kui me nüüd tahame teada, mis oli artiklite sisu, siis tihti tasub neid artikleid eeltöödelda. Eesti keele töötluseks on olemas tasuta kasutatav EstNLTK tarkvarateek Pythonis, mis võimaldab teksti märgendada näiteks sõnatüüpide suhtes või lemmatiseerida - see tähendab teha igast sõnavormist märksõna. Näiteks sõnadest “esines”, “esineb”, “esinesid” saab lemma “esinema” ja sõnadest “film”, “filmi”, “filmide” saab lemma “film”. See, kas meil on parem vaadata toorteksti või lemmatiseeritud teksti oleneb meie eesmärkidest.

Meie võime aga lemmatiseerida tekstid ja eemaldada ka neist stopsõnad (need on sõnad, mis on sagedased eestikeelsetes tekstides üldiselt) ning leida, mis sõnad iseloomustavad kõiki leitud tekste tervikuna. Selle kohta on tabel all. Näeme, et need on suhteliselt oodatavad - kõige sagedasem on sõna film, millest räägiti rohkem kui Marlenest ja Dietrichist - kinokavades on ka teisifilme ja sõna film on põhjust kasutada korduvalt ka teemaartiklites. Loomulikult on Marlene Dietrich “suur” täht ja kõige tähtsamad on “uued” filmid. Kinokavas paratamatult tuleb öelda, mis kell või mis aeg film algab. Tekstid ise räägivad aga rohkem naisest kui mehest.

word N
film 2907
dietrich 1481
marlene 1472
suur 1363
aasta 1243
naine 1074
kell 1024
uus 972
aeg 943
mees 886

Artiklite teemad

Sõnade sageduse järgi võime me saada informatsiooni leitud tekstide koguhulga kohta, aga ka üksikute tekstide kohta. Üks vahendeid, mida selleks kasutatakse tekstikaeves on teemamudelite loomine. Teemamudelid on tekstide põhjal loodud “teemad”, mis paigutavad algoritmi alusel sõnu nende koosesinevuse põhjal gruppidesse. Siin on analüütikul teha hulk tööd, et need grupid ka mõistlikud saaksid, aga teatud üle vaate saab juba lihtsama lahenduse puhul. Siin kasutasime vabavaralist tarkvarapaketti MALLET, et luua meie Marlene Dietrichi tekstide põhjal viis teemamudelit. Vaadates nendele peale on analüütikul võimalik neid sildistada.

Praegu tundus, et neist tekkis umbkaudu viis teemat, mis on vahelduva osakaaluga artiklites kajastatud - kino, kontserdid, mood, ajalugu ja biograafia. Need on ligikaudsed sildid ja jätavad palju kõrvale, aga teatud ülevaate teksti sisust siiski annavad. Nüüd võime kuvada meie artiklid ajas ning värvida nende teemade osakaalud vastavalt nende esinemisele. (Üldiselt sisaldavad artiklid rohkem kui ühte teemat.) Kui nüüd teemamudelite ülevaadet usaldada (täpsem vaade nõuaks analüütikul siin süvenemist), leiame et artiklid paigutuvad jälle omamoodi mõistlikult. Nimelt on kinoalased artiklid kõige levinumad just tema tuntuse alguses ning kuulsuse kasvades hakkavad artiklid rohkem reflekteerima ka Marlene Dietrichi isiku üle. Kasvava tähelepanu alla saavad ka tema moevalikud. Mõõdukalt on esindatud on kinokavadest eristuvad kontserditeated. Lõpuks kerkib üles eraldi ajalooteema kõige hiljutisemates artiklites, mis on ilmunud 70 aastat pärast tema algset tähelendu.

Pildilt on küll näha ka mõned raskused kategoriseerimisel - näiteks on paljud w-ga kirjutatud sõnad sattunud ühte teemasse. Seal on küll mitmeid moega seotud sõnu (kõiki pole pildil näha), aga otstarbekam võiks siin olla juba w asendada v-ga, et eristus oleks sisu põhjal ja lüüa ehk teemad veel mitmeks lahti. Teemamudelitega töötamisel ei pruugigi kõik automaatselt leitud teemat mõistlikku pealkirja saada.

Mida räägiti?

Kui me juba analüüsime, et millest neist tekstides räägiti, võime ka vaadata sagedasemaid sõnu täpsemalt. Näiteks võime vaadata, kuidas artiklite sõnavara erines läbi sajandi. Võime teha veidi arbitraarsed piirid tekstidele, et saada neli perioodi, kuo oli võrreldavas koguses tekste - algusaeg 1927-1933, tõusuaeg 1934-1936, küps kuulsus 1937-1940 ja hilisemad käsitlused 2000-2020. Graafikul on kuvatud 30 levinumat lemmat ajaperioodide kohta ja ühendatud nende positsioonid läbi perioodide. Tehes hiirega graafiku sisukorral topeltklõpsu on võimalik vaadata mõnd konkreetset sõna.

Me võime teha sellist üldisemalt. Näiteks võime võtta tabelist välja sõnad, mis olid top 30-s ainult ühel perioodidest. All on kuvatud valik nendest. Esimeses osas on artiklites sagedalt esinev sõnad kuulus ja peaosa - ilmselt hiljem ei pidanud enam tema staatust rõhutama ja oligi juba tegemist Marlene Dietrichi filmiga. Eraldi pidi tol ajal ka ära märkima, et tegemist oli helifilmiga - see sai samuti pärast loomulikuks. Tõusuajal räägiti juba Marlene Dietrichist sagedasti kui tähest ja tippajal oli juttu tema heast esinemisest. Kõige uuematest artiklites on sagedalt mainitud sõna teater, kuna paljudes neist artiklitest on juba juttu Dietrichi elu põhjal tehtud teatritükist, mis leidis laialdast kajastust.

Sama pilguga võime vaadata ka sõnu, mis saatsid teda läbi nende ajaperioodide. Sealt on näha, et algusest lõpuni on ta olnud filmikunsti suurkuju. Konkreetsest aastast on olnud põhjust rääkida pärast algusaegu - selleks võib olla mitmeid põhjusi - näiteks muutused artiklite formaadis. Samas on märgata, et sõna “kell” - kinokavade oluline osa on peaaegu kadunud hilisemast perioodist, samas kui aeg on kasvanud. See võib olla jälle seotud reklaamartikli formaadiga, aga ka ehk sellega et viimastes artiklites on juba palju vähem põhjust rääkida konkreetsetest kellaegadest. Just Hollywoodi näitlejana sai ta tuntuks perioodi keskel. Oluline on siin küll meeles pidada, et siin on juttu sõnadest, mis esinesid artiklites üldiselt ja mitte tingimata Dietrichi vahetus läheduses. Kui vaadata ainult kitsamat konteksti võiksid uusimad artiklid, mis olid hulka pikemad, anda ka veidi teise pildi. Siin peab jälle analüütik läbi mõtlema, et mida me täpselt soovime teada saada.

Kuidas tekstid välja nägid?

Viimaks võime mõelda ka tekstde kompositsioonile teistpidi - millised lemmad esinesid tihti teineteisega koos. Me võime sellisel juhul teha lemmadest koosesinevusvõrgustiku selle põhjal, et kui palju nad esinesid samas artiklis osakaaluna kõigist artiklitest, kus nad esinesid. Joonise kuju sõltub paljuski parameetritest, mis me sätime - antud juhul oleme nad värvinud sageduse järgi ning määranud, et joone tõmbamiseks pidid lemmad osanema koos vähemalt 40% juhtudest, mida rohkem, seda paksem joon on. Siin näeme, et võrgustike keskmes on kõige sagedasemad lemmad, mis esinesid tekstides tihti ning seetõttu ka sagedasti koos (“marlene”, “dietrich”, “film”, “naine”, “suur”, “aasta”, “aeg”). Mõndadega nendest on seotud teised muidu levinud lemmad. Omavahel on seotud näiteks “esimene”, “osa”, “aeg”, “suur”, “kord” ja “andma”, ilmselt esinemiste kontekstis. Lemma “naine”, aga mitte “mees” on näiteks seotud väga tihedalt “Marlene” ja “Dietrichiga”, mis esines loomulikult igas artiklis, kuna oli meie otsifraasiks. Mees ilmselt esines pikemates artiklites, kus räägiti mitmetest filmitähtedest, mis aga otsingu tulemustest ei moodustanud kaugeltki 40%-i. Lemma “osa” on aga omakorda seotud näiteks lemmaga “mängima”. Omaette grupid moodustasid lemmad “kell” ja “algus”, mis esinesid väga tihti koos kinokavades ning ka “greta” ja “garbo”, kellest rääkimise puhul muidugi öeldi välja tema täisnimi.

Sellise koosesinemisvõrgustiku tulemused sõltuvad oluliselt sellest, milliseid suhteid ja kuidas me täpselt mõõdame. Näiteks saaks siin samuti hulka teistsugused seosed kui meid huvitaks, et millised sõnad esinesid mitte lihtsalt samas artiklis vaid ka lähestikku. “marlene” ja “dietrich” ning “greta” ja “garbo” oleks ilmselt ikka koos, aga teiste sõnade seosed võiksid välja joonistuda hulka reljeefsemalt. Samuti ei pruugi nii ka “marlene” ja “dietrich” sama tihedalt koos esineda, kuna kui täisnimi on juba korra nimetatud võib artikkel minna edasi puhtalt eesnimele või perenimele. Neid suundasid võib edasi uurida juba edasistes katsetustes.

Kokkuvõtteks

See leht annab ainult mõned näidisvõtted sellest, mida täistekstide analüüsimine digihumanitaaria vahenditega saab pakkuda. Nende sobivus ja kasutatavus sõltuvad juba oluliselt meid huvitavast küsimusest ning kvaliteetsete tulemuste saamiseks peaks analüütik ka igal sammul näidetesse süvenema ning hindama kuivõrd kasutatud algoritmid eesmärki täidavad. Loodetavasti pakub see leht mõningaid mõtteid, et mida saaks nende tekstidega ette võtta ning toetab juba edasist tõsimist uurimistööd kogudes kättesaadavate tekstidega. Tekstikaeve ise on samuti üsna uus ja kiirestiarenev valdkond ning tõenäoline on, et innukas huviline leiab kiiresti just need vahendid, mis talle kõige paremini sobivad.