* meta.jsonl - metaandmed JSON lines formaadis
* full_texts.zip - zipitud kaust, mis sisaldab 7668 .txt formaadis faili (iga faili sisuks on ühe raamatu täistekst)
* morpohological_data.zip - zipitud kaust, mis sisaldab 7667 JSON lines formaadis faili. Iga fail sisaldab n rida, kus n = eraldatud lehekülgede arv ning iga rida sisaldab morfoloogilist informatsiooni vastaval leheküljel asuva teksti kohta.


ANDMETE SEOSTAMINE

Iga metafaili rida sisaldab välja "id", mis omakorda vastab ühele failile kaustas "/full_texts" ning ühele failile kaustas "/morphological_data".

Näiteks:

id = "b2928787x" (saadud metafaili ühelt realt)
vastav fail kaustas "/full_texts" = "b2928787x.txt"
vastav fail kaustas "/"morphological_data" = "b2928787x.jsonl"


######################## METAANDMED ########################

faili nimi: "meta.jsonl"
sisaldab: 7668 rida x 23 veergu

* kirjeldus: välja lühikirjeldus
* MARC ID: väljale vastav MARC ID
* N/A identifikaator: vastaval väljal tühiväärtuste märgistamiseks kasutatud notatsioon
* välja tüüp: välja sisule vastav andmetüüp
* näide: näide välja sisust

Väljad:

	author.name:

		kirjeldus: autori nimi
		MARC ID: 100_a
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "Marja Kallasmaa"

	author.year_of_birth:

		kirjeldus: authori sünniaasta
		MARC ID: 100_d
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "1912"


	author.year_of_death:

		kirjeldus: authori surma-aasta
		MARC ID: 100_d
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "1997"


	digar_id:

		kirjeldus: teaviku ID DIGARis (https://www.digar.ee/)
		MARC ID: -
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "171981"


	digar_url:

		kirjeldus: teavikule vastav URL DIGARis (https://www.digar.ee/)
		MARC ID: -
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "https://www.digar.ee/arhiiv/nlib-digar:171981"


	id:
		kirjeldus: teaviku unikaalne identifikaator
		MARC ID: -
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "b2928787x"

	file_name:

		kirjeldus: täisteksti sisaldava faili nimi kaustas "/full_texts"
		MARC ID: -
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "b2928787x.txt"


	keywords.ems_subject_field:

		kirjeldus: teavikule vastavad EMSi valdkonnad
		MARC ID: -
		N/A identifikaator: []
		välja tüüp: list
		näide: ['TÖÖTINGIMUSED. TÖÖHÕIVE. AMETID', 'MAJANDUS. MAJANDUSTEADUS. RAHANDUS. KAUBANDUS']


	keywords.genre:

		kirjeldus: teavikule vastavad žanri- ja vormimärksõnad
		MARC ID: 655
		N/A identifikaator: []
		välja tüüp: list
		näide: ['teatmikud', 'ametlikud väljaanded']


	keywords.time:

		kirjeldus: teavikule vastavad ajamärksõnad
		MARC ID: 653
		N/A identifikaator: []
		välja tüüp: list
		näide: ['19. saj']

	keywords.topic:

		kirjeldus: teavikule vastavad teemamärksõnad
		MARC ID: 650
		N/A identifikaator: []
		välja tüüp: list
		näide: ['struktuurifondid', 'tööhõivepoliitika', 'tööjõud', 'sotsiaalne areng']


	keywords.location:

		kirjeldus: teavikule vastavad kohamärksõnad
		MARC ID: 651
		N/A identifikaator: []
		välja tüüp: list
		näide: ['Eesti', 'Võrumaa']


	keywords.organisation:

		kirjeldus: teavikule vastavad kollektiivi nime märksõnad
		MARC ID: 610
		N/A identifikaator: []
		välja tüüp: list
		näide: ['Euroopa Liit', 'Euroopa Sotsiaalfond']


	keywords.person:

		kirjeldus: teavikule vastavad isikumärksõnad
		MARC ID: 600
		N/A identifikaator: []
		välja tüüp: list
		näide: ['Heiki Kelp']


	keywords.temp_organisation_event:

		kirjeldus: teavikule vastavad ajutise kollektiivi või sündmuse märksõnad
		MARC ID: 611
		N/A identifikaator: []
		välja tüüp: list
		näide: ['Euroopa Liiduga liitumise mõju Eesti majanduspoliitikale, teadus- ja koolituskonverents']


	langs.present:

		kirjeldus: teaviku keel(ed) ISO 639-2 koodi(de)na (eraldatud tühikuga)
		MARC ID: 041_h
		N/A identifikaator:
		välja tüüp: string
		näide: "est"


	langs.source:

		kirjeldus: teaviku originaalkeel(ed) ISO 639-2 koodi(de)na (eraldatud tühikuga)
		MARC ID: 041_a
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "eng"


	langs.summary:

		kirjeldus: teaviku kokkuvõtte keel(ed) ISO 639-2 koodi(de)na (eraldatud tühikuga)
		MARC ID: 041_b
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "eng"


	n_pages:

		kirjeldus: teaviku lehekülgede arv
		MARC ID: 300_a
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "8"


	publication_place:

		kirjeldus:  teaviku kirjastamise koht
		MARC ID: 260_a
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "Luxembourg"


	publisher:

		kirjeldus: teaviku kirjastaja
		MARC ID: 260_b
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "Euroopa Liidu Väljaannete Talitus"

	title:

		kirjeldus: teaviku pealkiri
		MARC ID: 245
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "Euroopa Sotsiaalfond : investeerides inimestesse : mis see on ja millega tegeleb?"


	year_published:

		kirjeldus: teaviku (konkreetse väljaande) ilmumisaasta
		MARC ID: 260_c
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "2012"


############## MORFOLOOGILINE INFORMATSIOON #################

faili nimi: "morphological_data.zip"
sisaldab: 7667 JSON lines formaadis faili (iga fail koosneb n reast x 11 veerust, kus n = eraldatud lehekülgede arv)

väljad:

	id:

		kirjeldus: unikaalne identifikaator, mille abil on vastava lehekülje info võimalik linkida nii teaviku metaandmete kui ka täistekstiga
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "b25045507"


	text:

		kirjeldus: leheküljelt eraldatud toortekst
		N/A identifikaator: ""
		välja tüüp: string


	text.endings:

		kirjeldus: EstNLTK abil eraldatud sõnalõpud (ainult eestikeelsetel tekstidel)
		N/A identifikaator: ""
		välja tüüp: string


	text.forms:

		kirjeldus: EstNLTK abil eraldatud sõnavormid (ainult eestikeelsetel tekstidel)
		N/A identifikaator: ""
		välja tüüp: string
		näide: ""


	text.lang:

		kirjeldus: leheküljelt eraldatud teksti keel ISO 639-1 formaadis. NB! kuna toetatud on ainult kolm keelt (["et", "en", "ru"]), ei pruugi tulemused 100% täpsed olla.
		N/A identifikaator: ""
		välja tüüp: string


	text.lemmas:

		kirjeldus: EstNLTK või spaCy abil eraldatud lemmad
		N/A identifikaator: ""
		välja tüüp: string


	text.parsing_status:

		kirjeldus: indikaator, mis väljendab teksti eraldamise edukust
			võimalikud väärtused:
				ok: teksti eraldamine oli edukas
				empty/missing: teksti eraldamine ebaõnnestus (tühiväärtus)
				gibberish: eraldatud tekst koosneb seosetutest sümboljadadest
		N/A identifikaator: "missing"
		välja tüüp: string
		näide: "ok"

	text.postags:

		kirjeldus: EstNLTK abil eraldatud part-of-speech märgendid (ainult eestikeelsetel tekstidel)
		N/A identifikaator: ""
		välja tüüp: string


	text.tokens:

		kirjeldus: EstNLTK või spaCy abil tokeniseeritud tekst
		N/A identifikaator: ""
		välja tüüp: string


	pages.current:

		kirjeldus: lehekülg, millelt on eraldatud vastaval real olev tekst ja morfoloofiline info
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "8"


	pages.total:

		kirjeldus: eraldatatud lehekülgede arv
		N/A identifikaator: "N/A"
		välja tüüp: string
		näide: "53"


####################### TÄISTEKSTID #######################

faili nimi: "full_texts.zip"
sisaldab: 7668 .txt formaadis faili