* meta.jsonl - metaandmed JSON lines formaadis * full_texts.zip - zipitud kaust, mis sisaldab 7668 .txt formaadis faili (iga faili sisuks on ühe raamatu täistekst) * morpohological_data.zip - zipitud kaust, mis sisaldab 7667 JSON lines formaadis faili. Iga fail sisaldab n rida, kus n = eraldatud lehekülgede arv ning iga rida sisaldab morfoloogilist informatsiooni vastaval leheküljel asuva teksti kohta. ANDMETE SEOSTAMINE Iga metafaili rida sisaldab välja "id", mis omakorda vastab ühele failile kaustas "/full_texts" ning ühele failile kaustas "/morphological_data". Näiteks: id = "b2928787x" (saadud metafaili ühelt realt) vastav fail kaustas "/full_texts" = "b2928787x.txt" vastav fail kaustas "/"morphological_data" = "b2928787x.jsonl" ######################## METAANDMED ######################## faili nimi: "meta.jsonl" sisaldab: 7668 rida x 23 veergu * kirjeldus: välja lühikirjeldus * MARC ID: väljale vastav MARC ID * N/A identifikaator: vastaval väljal tühiväärtuste märgistamiseks kasutatud notatsioon * välja tüüp: välja sisule vastav andmetüüp * näide: näide välja sisust Väljad: author.name: kirjeldus: autori nimi MARC ID: 100_a N/A identifikaator: "N/A" välja tüüp: string näide: "Marja Kallasmaa" author.year_of_birth: kirjeldus: authori sünniaasta MARC ID: 100_d N/A identifikaator: "N/A" välja tüüp: string näide: "1912" author.year_of_death: kirjeldus: authori surma-aasta MARC ID: 100_d N/A identifikaator: "N/A" välja tüüp: string näide: "1997" digar_id: kirjeldus: teaviku ID DIGARis (https://www.digar.ee/) MARC ID: - N/A identifikaator: "N/A" välja tüüp: string näide: "171981" digar_url: kirjeldus: teavikule vastav URL DIGARis (https://www.digar.ee/) MARC ID: - N/A identifikaator: "N/A" välja tüüp: string näide: "https://www.digar.ee/arhiiv/nlib-digar:171981" id: kirjeldus: teaviku unikaalne identifikaator MARC ID: - N/A identifikaator: "N/A" välja tüüp: string näide: "b2928787x" file_name: kirjeldus: täisteksti sisaldava faili nimi kaustas "/full_texts" MARC ID: - N/A identifikaator: "N/A" välja tüüp: string näide: "b2928787x.txt" keywords.ems_subject_field: kirjeldus: teavikule vastavad EMSi valdkonnad MARC ID: - N/A identifikaator: [] välja tüüp: list näide: ['TÖÖTINGIMUSED. TÖÖHÕIVE. AMETID', 'MAJANDUS. MAJANDUSTEADUS. RAHANDUS. KAUBANDUS'] keywords.genre: kirjeldus: teavikule vastavad žanri- ja vormimärksõnad MARC ID: 655 N/A identifikaator: [] välja tüüp: list näide: ['teatmikud', 'ametlikud väljaanded'] keywords.time: kirjeldus: teavikule vastavad ajamärksõnad MARC ID: 653 N/A identifikaator: [] välja tüüp: list näide: ['19. saj'] keywords.topic: kirjeldus: teavikule vastavad teemamärksõnad MARC ID: 650 N/A identifikaator: [] välja tüüp: list näide: ['struktuurifondid', 'tööhõivepoliitika', 'tööjõud', 'sotsiaalne areng'] keywords.location: kirjeldus: teavikule vastavad kohamärksõnad MARC ID: 651 N/A identifikaator: [] välja tüüp: list näide: ['Eesti', 'Võrumaa'] keywords.organisation: kirjeldus: teavikule vastavad kollektiivi nime märksõnad MARC ID: 610 N/A identifikaator: [] välja tüüp: list näide: ['Euroopa Liit', 'Euroopa Sotsiaalfond'] keywords.person: kirjeldus: teavikule vastavad isikumärksõnad MARC ID: 600 N/A identifikaator: [] välja tüüp: list näide: ['Heiki Kelp'] keywords.temp_organisation_event: kirjeldus: teavikule vastavad ajutise kollektiivi või sündmuse märksõnad MARC ID: 611 N/A identifikaator: [] välja tüüp: list näide: ['Euroopa Liiduga liitumise mõju Eesti majanduspoliitikale, teadus- ja koolituskonverents'] langs.present: kirjeldus: teaviku keel(ed) ISO 639-2 koodi(de)na (eraldatud tühikuga) MARC ID: 041_h N/A identifikaator: välja tüüp: string näide: "est" langs.source: kirjeldus: teaviku originaalkeel(ed) ISO 639-2 koodi(de)na (eraldatud tühikuga) MARC ID: 041_a N/A identifikaator: "N/A" välja tüüp: string näide: "eng" langs.summary: kirjeldus: teaviku kokkuvõtte keel(ed) ISO 639-2 koodi(de)na (eraldatud tühikuga) MARC ID: 041_b N/A identifikaator: "N/A" välja tüüp: string näide: "eng" n_pages: kirjeldus: teaviku lehekülgede arv MARC ID: 300_a N/A identifikaator: "N/A" välja tüüp: string näide: "8" publication_place: kirjeldus: teaviku kirjastamise koht MARC ID: 260_a N/A identifikaator: "N/A" välja tüüp: string näide: "Luxembourg" publisher: kirjeldus: teaviku kirjastaja MARC ID: 260_b N/A identifikaator: "N/A" välja tüüp: string näide: "Euroopa Liidu Väljaannete Talitus" title: kirjeldus: teaviku pealkiri MARC ID: 245 N/A identifikaator: "N/A" välja tüüp: string näide: "Euroopa Sotsiaalfond : investeerides inimestesse : mis see on ja millega tegeleb?" year_published: kirjeldus: teaviku (konkreetse väljaande) ilmumisaasta MARC ID: 260_c N/A identifikaator: "N/A" välja tüüp: string näide: "2012" ############## MORFOLOOGILINE INFORMATSIOON ################# faili nimi: "morphological_data.zip" sisaldab: 7667 JSON lines formaadis faili (iga fail koosneb n reast x 11 veerust, kus n = eraldatud lehekülgede arv) väljad: id: kirjeldus: unikaalne identifikaator, mille abil on vastava lehekülje info võimalik linkida nii teaviku metaandmete kui ka täistekstiga N/A identifikaator: "N/A" välja tüüp: string näide: "b25045507" text: kirjeldus: leheküljelt eraldatud toortekst N/A identifikaator: "" välja tüüp: string text.endings: kirjeldus: EstNLTK abil eraldatud sõnalõpud (ainult eestikeelsetel tekstidel) N/A identifikaator: "" välja tüüp: string text.forms: kirjeldus: EstNLTK abil eraldatud sõnavormid (ainult eestikeelsetel tekstidel) N/A identifikaator: "" välja tüüp: string näide: "" text.lang: kirjeldus: leheküljelt eraldatud teksti keel ISO 639-1 formaadis. NB! kuna toetatud on ainult kolm keelt (["et", "en", "ru"]), ei pruugi tulemused 100% täpsed olla. N/A identifikaator: "" välja tüüp: string text.lemmas: kirjeldus: EstNLTK või spaCy abil eraldatud lemmad N/A identifikaator: "" välja tüüp: string text.parsing_status: kirjeldus: indikaator, mis väljendab teksti eraldamise edukust võimalikud väärtused: ok: teksti eraldamine oli edukas empty/missing: teksti eraldamine ebaõnnestus (tühiväärtus) gibberish: eraldatud tekst koosneb seosetutest sümboljadadest N/A identifikaator: "missing" välja tüüp: string näide: "ok" text.postags: kirjeldus: EstNLTK abil eraldatud part-of-speech märgendid (ainult eestikeelsetel tekstidel) N/A identifikaator: "" välja tüüp: string text.tokens: kirjeldus: EstNLTK või spaCy abil tokeniseeritud tekst N/A identifikaator: "" välja tüüp: string pages.current: kirjeldus: lehekülg, millelt on eraldatud vastaval real olev tekst ja morfoloofiline info N/A identifikaator: "N/A" välja tüüp: string näide: "8" pages.total: kirjeldus: eraldatatud lehekülgede arv N/A identifikaator: "N/A" välja tüüp: string näide: "53" ####################### TÄISTEKSTID ####################### faili nimi: "full_texts.zip" sisaldab: 7668 .txt formaadis faili