Andmed on teaduse alus

RAHVUSRAAMATUKOGU AVAANDMED

 

Rahvusraamatukogu avalikud teenused on seadusest tulenevalt üldkättesaadavad infoteenused, mida osutatakse lugemissaalides, võrguteenustena ja teiste raamatukogude vahendusel. Rahvusraamatukogu arendab mitmekesist e-kogude (Digitaalarhiiv DIGAR, Eesti rahvusbibliograafia andmebaas ERB jne) kollektsioone ning pakub erinevaid e-teenuseid, arendab personaalseid sisuteenuseid ning sotsiaal- ja humanitaarvaldkonna ja kitsamatele sihtrühmadele suunatud teenuseid.

Avaandmete kasutamisel nõustute Creative Commons Public Domain (CC0) litsentsitingimustega.

Rahvusraamatukogu digiarhiiv DIGAR

DIGAR (http://www.digar.ee) on Rahvusraamatukogu digiarhiiv, mis pakub juurdepääsu digitaalarhiivis talletatud väljaannetele. Nende hulgas on e-raamatuid, ajalehti, ajakirju, kaarte, noote, fotosid, postkaarte, plakateid, illustratsioone, audioraamatuid ning muusikafaile. Raamatute ja perioodika vorming on enamasti pdf või epub, pildimaterjalil jpeg ja helisalvestistel wav.

DIGAR'i andmefailid tehakse kättesaadavaks EDM vormingus (Europeana Data Model) läbi OAI-PMH protokolli.

XML

Raamatud

XML

Kaardid

XML

Postkaardid

XML

Plakatid

ˇ
XML

Helisalvestised

XML

Standardid

XML

Noodid

XML

Perioodika

XML

Jätkväljaanded


Andmed uuendatud 30.07.2019

DIGAR Eesti artiklid

DIGAR Eesti artiklid (http://dea.digar.ee) pakub juurdepääsu kõigile läbi aegade Eestis ilmunud või välismaal eesti keeles avaldatud digitaalselt sündinud ja digiteeritud ajalehtedele, lisaks alates 2017.aastast ilmuvatele ajakirjadele ja jätkväljaannetele, mis on registreeritud aastaväljaandes „Eesti rahvusbibliograafia. Perioodika“.

Portaal võimaldab väljaandeid sirvida, aga ka otsida ajalehtedes avaldatut, lugeda artiklite täistekste, lisada artiklitele märksõnu, koostada leitud artiklitest nimestikke ning saata neid oma e-postile, jagada leitud informatsiooni sotsiaalvõrgustikes ja palju muud.

Kasutajatele on võimaldatud juurdepääs 2014. aastast ilmunud ajalehtedele, 2017.aastast ilmunud ajakirjadele ja jätkväljaannetele, ning osaliselt ka vanematele ajalehtedele. Portaali täiendatakse iga päev. Vanemad ajalehed (1821–2013) lisatakse nimetuse haaval vastavalt konverteerimiskavale.

DIGAR Eesti artiklid andmefailid tehakse kättesaadavaks läbi OAI-PMH protokolli ja on esitatud marc21xml vormingus.

MARC21XML

Artiklid


Populaarsed sõnad tänastes lehtedes                     10-aastat tagasi                     100-aastat tagasi


Uueneb igapäevaselt!

Eesti Rahvusbibliograafia

Eesti rahvusbibliograafia andmebaas ERB ( http://erb.nlib.ee) registreerib andmed rahvusteavikute kohta. Rahvusteavikutena käsitletakse Eestis kõigis keeltes ning välismaal eesti keeles avaldatud väljaandeid, Eesti autorite teoseid ja nende tõlkeid sõltumata nende füüsilisest kandjast (paber, elektrooniline kandja). ERB koostamise põhimõtted on fikseeritud dokumendis Rahvusbibliograafia koostamise alused. Andmebaasi täiendatakse uute andmetega pidevalt, kuid mitte harvemini kui üks kord nädalas.

Registreerimise käigus koostatakse igale väljaandele detailne, teavikus avaldatud andmetele tuginev kirjeldus, mis sisaldab pealkirja, väljaandmise eest vastutavate isikute ja organisatsioonide andmeid, kirjastuse ja trükikoja andmeid, trükikorduse andmeid, füüsilist kirjeldust (leheküljed, mõõdud jne) ning kuuluvust mõnda sarja. Täiendavalt lisatakse juurde otsitunnused – märksõnad, liigiindeksid ning seotud isikute ja organisatsioonide normitud nimekujud.

Kõik andmed vastavad rahvusvahelistele standarditele:

  - ISBD (International Standard Bibliografic Description) - kirjeldavad andmed;
  - AACR2 (Anglo-American Cataloguing Rules 2) - otsitunnused;
  - UDC (Unversal Decimal Classification) - liigiindeksid;
  - MARC21 – kasutusel andmevahetusvorminguna.

ERB avaandmed on jaotatud teavikulaadide järgi rühmadesse: raamatud, perioodika (ajakirjad, ajalehed, jätkväljaanded), kaardid, noodid, videosalvestised, helisalvestised, piltteavikud ning multimeediaväljaanded. Sealjuures on andmed raamatute kohta jaotatud kaheks – eestikeelsed ja muukeelsed raamatud.

Avaandmed on esitatud marc21xml vormingus.

MARC21XML OAI-PMH

Eestikeelne raamat

MARC21XML OAI-PMH

Muukeelne raamat

MARC21XML OAI-PMH

Kaardid

MARC21XML OAI-PMH

Multimeedia

MARC21XML OAI-PMH

Noodid

MARC21XML OAI-PMH

Piltteavikud

MARC21XML OAI-PMH

Helisalvestised

MARC21XML OAI-PMH

Video

MARC21XML OAI-PMH

Perioodika

MARC21XML OAI-PMH

Vabakasutuses teosed


Uued ja muudetud kirjed MARC21 formaadis.

Uueneb iga nädal. Kogumid laadide kaupa uuendatud viimati 31.07.2019

Eesti rahvusbibliograafia isikute ja kollektiivide andmed

EV100 “Kuulsad eestlased - linkandmete pilv” eesmärgiks on avada huvilistele taaskasutamiseks mäluasutuste käes olevad andmed Eesti Vabariigi suurkujude kohta ning tõsta nende kohta käivate andmete kvaliteeti. Vaata ka projekti käigus digiteeritud ning segmenteeritud isikute bibliograafiaid onlines -> http://www.digar.ee/arhiiv/et/kollektsioonid?id=9655

VIAF
Näidiskirje

ISIKUD MARC21XML formadis


VIAF
Näidiskirje

ISIKUD RDF formaadis


Isikud (.zip)
OAI-PMH

Isikud MARC21XML formaadis


Kollektiivid (.zip)
OAI-PMH

Organisatsioonid MARC21XML formaadis


Uueneb 1x kuus! Viimati uuendatud 30.07.2019

Abiks andmekaevandamisel


OAI-PMH protokoll on Open Archives Initiative loodud standard, mis pakub infosüsteemist sõltumatut koostalitusvõimelist standardit metaandmete jagamiseks ning kogumiseks. Metainfo, mida üle OAI-PMH protokolli saadetakse, on XML vormingus.
OAI-PMH standard kirjeldab järgnevaid päringuid ja meetoteid:

  ListRecords - päringu tulemuseks on reeglina XML objekide kogum, mis sisaldab üldjuhul mitut erinevat kirjet ühes vastuses. Selleks, et pärida suurt hulka kirjeid, võimaldab ListRecords kontrollida saadetavate metaandmete voolu resumptionTokeniga
  ResumptionToken - on kursor, mis ütleb, kust andmete ülekandmist jätkata.
  ListIdentifiers - on ListRecords päringu vähendatud versioon, kust on välja võetud täielik kirje objekt ning tagastatakse ainult objektis sisalduv identifikaator (header)
  GetRecord - päringut kasutatakse üksiku kirje objekti saamiseks tema unikaalse identifikaatori järgi
Rahvusraamatukogu OAI-PMH serverile saadetavaid päringuid on võimalik täiendada/piiritleda ajaliselt, vorminguliselt kui ka erinevate kogumite kaupa kasutades järgnevaid parameetreid: Tulenevalt OAI-PMH standardist on olemas kaks võimalikku viisi, kuidas ehitada liidese töötamise loogikat – kasutada ListRecords päringut või ListIdentifiers ja GetRecord päringut koos.


Kui kõik allikad ja allika kohta käivad metaandmed ei ole olulised ja huvitab ainult tekstiline sisu ning OAI-PMH protokolli kasutada tundub liigselt keeruline võib päringuid saata ka otse dea.digar.ee süsteemi kasutades jõu meetodit. Võttes aluseks Eesti Rahvusraamatukogus registreeritud ajalehtede nimistut ja igale lehele omistatud koodi on võimalik pärida dea.digar.ee baasist järgmise süntaksi abil. http://dea.digar.ee/article-text-XML/[ajalehekood]/[aasta]/[kuu]/[päev]/[artiklinumber].1
artiklinumbrit suurendada seni kuni süsteem tagastab XML vastuses tagi.
Näide: http://dea.digar.ee/article-text-XML/eestiekspress/2014/01/02/8.1

Andmete vormingud ja nende kirjeldused

Dublin Core Metadata Element Set, Version 1.1 (14.07.2017) vt. http://dublincore.org/documents/dces/
DCMI Metadata Terms (14.07.2017) vt. http://dublincore.org/documents/dcmi-terms/
MARC to Dublin Core Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/marc2dc.html
Dublin Core to MARC Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/dccross.html

MARC21 ja Dublin Core lihtsustatud väljade kirjeldused

  MARC21 100 = <dc:creator> = Autor
  MARC21 700 = <dc:creator> = Autor
  MARC21 245 = <dc:title> = Artikli pealkiri
  MARC21 260 $c = <dc:date> = Väljaande ilmumisaasta
  MARC21 260 $a $b = <dc:publisher> = Väljaande kirjastus ja ilumiskoht
  MARC21 540 = <dc:rights> = Juurdepääsu piirangu tähtaeg
  MARC21 542 = <dc:rights> = Autoriõiguse märkus ja litsents
  MARC21 588 = <dc:description> = Andmete allikas
  MARC21 650 = <dc:subject> = Märksõnad
  MARC21 690 = <dc:subject> = Kasutaja lisatud märksõnad (võib sisaldada isikute ja organisatsioonide nimesid)
  MARC21 773 $n = <dc:type> = Ajalehe kategooria Nt. päevaleht, maakonnaleht jne.
  MARC21 773 = <dc:type> = Artikli ilmumise andmed
  MARC21 773 $3 = <dc:type> = Väljaande laad: ajaleht, ajakiri, jätkväljaane
  MARC21 856 41= <dc:identifier> = Viide artiklile DIGAR'is
  MARC21 856 4_= <dc:identifier> = Viide väljaande kirjeldusele ESTER'is
  MARC21 998 = <dc:identifier> = Viide täistekstile
  MARC21 999 = <dc:type> = artikli tüüp

Küsi abi julgesti!

DIGARi korpus vabalt kasutataval ainesel

Andmeid kaevandas ja protsessis Peeter Tinits (TLÜ)

Korpus sisaldab Eesi rahvusbibliograafias ERB registreeritud väljaannete tekste, mis on DIGARis arhiveeritud ja kasutajatele piiranguteta kättesaadavaks tehtud.
.tsv failid sisaldavad töödeldud toortekste, mis on saadud pdf-failide konverteerimisest tekstideks (programmiga pdf2txt) ja analüüsitud EstNLTK Pythoni teekidega. Tulenevalt digiteeritud väljaande kvaliteedist ja tärktuvastamise hetkel kasutusel olnud vahenditest võib OCR-i kvaliteet olla ebaühtlane. Seetõttu ei ole kõik saadaval olnud tekstid alati uurimiskõlbulikud.

Loe lähemalt digar_corpus.pdf
Küsi allikmaterjali .txt kujul (3416 faili kokku 196MB) Urmas.Sinisalu@nlib.ee
Lae alla skriptid millega tekste töödeldi http://github/
Lae alla protsessitud korpuse failid processed_pdf_tsv.zip (950MB)

Rahvusbibliograafia tekstikaeve korpus

Andmeid kaevandas ja protsessis Peeter Tinits (TLÜ)Tugineb vabalt kättesaadaval ainesel ja on vabalt kasutamiseks kõigile.
Kui Eesti rahvusbibliograafias registreeritakse kõik Eestis ilmunud väljaanded olenemata nende keelest ning välismaal eesti keeles avaldatud väljaanded, siis käesolevas projektis on analüüsitud üksnes eesti keeles avaldatud väljaandeid. Andmehulk sisaldab 193848 trükitud teose metaandmeid.

Loe lähemalt erb_corpus.pdf
Lae alla protsessitud korpuse failid processed_txt_tsv.zip (120MB)
Uuema eesti ilukirjanduse mitmikute loendid

Uku Raudvere ja Kristel Uiboaed
Tartu Ülikooli raamatukogu


Mitmikud või n-grammid (täpsemalt vt nt Wikipediast) on esitatud failidena, ühe-, kahe- ja kolmekaupa. Info on failides tabulaatoriga eraldatud (tab-delimited) ja organiseeritud järgnevalt: sõnavorm või mitmik, selle sagedus kõigis allikates kokku, allikate arv, kus vorm või mitmik esines.


Loe lähemalt n-gram-raport.pdf
Siin on esitatud uuema eestikeelse ilukirjanduse tekstide põhjal koostatud keeleressursid:
• sõnavormide sagedusloend ( token_1_grams.tsv),
• sõnavormide bigrammid ( token_2_grams.tsv),
• sõnavormide trigrammid ( token_3_grams.tsv),
• algvormide ehk lemmade sagedusloend ( lemm_1_grams.tsv),
• algvormide ehk lemmade bigrammid ( lemma_2_grams.tsv),
• algvormide ehk lemmade trigrammid ( lemma_3_grams.tsv).Urmas Sinisalu

Andmehalduse peaspetsialist Urmas.Sinisalu@nlib.ee

Tehniline kontaktJane Makke

Metaandmete peaspetsialist Jane.Makke@nlib.ee

Sisuline kontaktIvi Smitt

Autoriõiguse juhtiv spetsialist Ivi.Smitt@nlib.ee

Autoriõiguste kontakt

Eesti Rahvusraamatukogu
Tõnismägi 2 15189 Tallinn Tel. 630 7611  nlib at nlib dot ee