Alates 30.03.2023 on kasutusel uus aadress

https://digiLab.RaRa.ee

Rahvusraamatukogu avalikud teenused on seadusest tulenevalt üldkättesaadavad infoteenused, mida osutatakse lugemissaalides, võrguteenustena ja teiste raamatukogude vahendusel. Rahvusraamatukogu arendab mitmekesist e-kogude (Digitaalarhiiv DIGAR, Eesti rahvusbibliograafia andmebaas ERB jne) kollektsioone ning pakub erinevaid e-teenuseid, arendab personaalseid sisuteenuseid ning sotsiaal- ja humanitaarvaldkonna ja kitsamatele sihtrühmadele suunatud teenuseid.

Avaandmete kasutamisel nõustute Creative Commons Public Domain (CC BY-SA 3.0 EE) litsentsitingimustega.

Rahvusraamatukogu digiarhiiv DIGAR

DIGAR (http://www.digar.ee) on Rahvusraamatukogu digiarhiiv, mis pakub juurdepääsu digitaalarhiivis talletatud väljaannetele. Nende hulgas on e-raamatuid, ajalehti, ajakirju, kaarte, noote, fotosid, postkaarte, plakateid, illustratsioone, audioraamatuid ning muusikafaile. Raamatute ja perioodika vorming on enamasti pdf või epub, pildimaterjalil jpeg ja helisalvestistel wav.

DIGAR'i andmefailid tehakse kättesaadavaks EDM vormingus (Europeana Data Model) läbi OAI-PMH protokolli.

XML
Raamatud

XML
Kaardid

XML
Postkaardid

XML
Plakatid
ˇ
XML
Helisalvestised

XML
Standardid

XML
Noodid

XML
Perioodika

XML
Jätkväljaanded

Andmed uuendatud 03.03.2023

DIGAR Eesti artiklid

DIGAR Eesti artiklid (http://dea.digar.ee) pakub juurdepääsu kõigile läbi aegade Eestis ilmunud või välismaal eesti keeles avaldatud digitaalselt sündinud ja digiteeritud ajalehtedele, lisaks alates 2017.aastast ilmuvatele ajakirjadele ja jätkväljaannetele, mis on registreeritud aastaväljaandes „Eesti rahvusbibliograafia. Perioodika“.

Portaal võimaldab väljaandeid sirvida, aga ka otsida ajalehtedes avaldatut, lugeda artiklite täistekste, lisada artiklitele märksõnu, koostada leitud artiklitest nimestikke ning saata neid oma e-postile, jagada leitud informatsiooni sotsiaalvõrgustikes ja palju muud.

Kasutajatele on võimaldatud juurdepääs 2014. aastast ilmunud ajalehtedele, 2017.aastast ilmunud ajakirjadele ja jätkväljaannetele, ning osaliselt ka vanematele ajalehtedele. Portaali täiendatakse iga päev. Vanemad ajalehed (1821–2013) lisatakse nimetuse haaval vastavalt konverteerimiskavale.

DIGAR Eesti artiklid andmefailid tehakse kättesaadavaks läbi OAI-PMH protokolli ja on esitatud marc21xml vormingus.

MARC21XML
Masinloetavad artiklid
Ülevaade
Ülevaade sisust
Ligipääs
toorandmetele
Ligipääs
Access
to raw data
Access
Näide 1
(Marlene Dietrich)
Väljavõte andmetest
Näide 2
hobujõud
Elekter, aur,
Küsi faile
Ajalehtede toorandmed

Uueneb igapäevaselt!

Eesti Rahvusbibliograafia

Eesti rahvusbibliograafia andmebaas ERB ( http://erb.nlib.ee) registreerib andmed rahvusteavikute kohta. Rahvusteavikutena käsitletakse Eestis kõigis keeltes ning välismaal eesti keeles avaldatud väljaandeid, Eesti autorite teoseid ja nende tõlkeid sõltumata nende füüsilisest kandjast (paber, elektrooniline kandja). ERB koostamise põhimõtted on fikseeritud dokumendis Rahvusbibliograafia koostamise alused. Andmebaasi täiendatakse uute andmetega pidevalt, kuid mitte harvemini kui üks kord nädalas.

Registreerimise käigus koostatakse igale väljaandele detailne, teavikus avaldatud andmetele tuginev kirjeldus, mis sisaldab pealkirja, väljaandmise eest vastutavate isikute ja organisatsioonide andmeid, kirjastuse ja trükikoja andmeid, trükikorduse andmeid, füüsilist kirjeldust (leheküljed, mõõdud jne) ning kuuluvust mõnda sarja. Täiendavalt lisatakse juurde otsitunnused – märksõnad, liigiindeksid ning seotud isikute ja organisatsioonide normitud nimekujud.

Kõik andmed vastavad rahvusvahelistele standarditele:

ERB avaandmed on jaotatud teavikulaadide järgi rühmadesse: raamatud, perioodika (ajakirjad, ajalehed, jätkväljaanded), kaardid, noodid, videosalvestised, helisalvestised, piltteavikud ning multimeediaväljaanded. Sealjuures on andmed raamatute kohta jaotatud kaheks – eestikeelsed ja muukeelsed raamatud.

Avaandmed on esitatud marc21xml vormingus.

MARC21XML OAI-PMH
Eestikeelne raamat
MARC21XML OAI-PMH
Muukeelne raamat
MARC21XML OAI-PMH
Kaardid
MARC21XML OAI-PMH
Multimeedia
MARC21XML OAI-PMH
Noodid
MARC21XML OAI-PMH
Piltteavikud
MARC21XML OAI-PMH
Helisalvestised
MARC21XML OAI-PMH
Video
MARC21XML OAI-PMH
Perioodika
MARC21XML OAI-PMH
Vabakasutuses teosed

Uued ja muudetud kirjed MARC21 formaadis.

Uueneb iga nädal. Kogumid laadide kaupa uuendatud viimati 03.03.2023

Rahvusraamatukogus loodud artiklite kogumid.

Eesti õigusbibliograafia - BIE
(https://www.nlib.ee/bie)

Andmebaasis on Eestis ilmunud õigusalane kirjandus, Eesti õigusteadlaste tööd ja Eesti õigussüsteemi kohta välismaal ilmunud raamatud, ajakirja- ja kogumikuartiklid, bakalaureuse-, magistri- ja doktoritööd.

Vabariigi Presidendi bibliograafia
(https://www.nlib.ee/vpb)

Andmebaasis on Vabariigi Presidendi kõned, artiklid ja intervjuud, Vabariigi Presidendi tegevus ja kirjutised tema kohta ning Vabariigi Presidendi Kantselei tegevuse kohta kirjutatu. Sisaldab raamatud, ajalehe-, ajakirja- ja kogumikuartikleid.

Reprod
(https://artiklid.elnet.ee/search~S17*est)

Sisaldab Eesti kunstnike, arhitektide ja fotograafide tööde reproduktsioone ajakirjadest ja raamatutest.

Parlamentarism
(https://artiklid.elnet.ee/search~S16*est)

Sisaldab Eesti ajakirjanduses ja Eestis ilmunud kogumikes avaldatud Riigikogu liikmete kirjutisi ja intervjuusid, Riigikogu kui institutsiooni tegevust ja parlamentarismi käsitlevaid artikleid Välismaistest teadusajakirjades ilmunud artikleid parlamentarismi üldsuundumuste ja Eesti parlamentarismi kohta ning 2014. aastani avaldatud teemakohaseid raamatuid ja üliõpilastöid.)

BIE.zip
xml
Eesti õigusbibliograafia MARC21XML formaadis

VPB.zip
xml
Vabariigi Presidendi bibliograafia MARC21XML formaadis

Repro.zip
xml
Repro kirjed MARC21XML formaadis

Parl.zip
xml

Parlamentarism MARC21XML formaadis

Uueneb 1x kuus! Viimati uuendatud 05.01.2023

Eesti rahvusbibliograafia isikute ja kollektiivide andmed

EV100 “Kuulsad eestlased - linkandmete pilv” eesmärgiks on avada huvilistele taaskasutamiseks mäluasutuste käes olevad andmed Eesti Vabariigi suurkujude kohta ning tõsta nende kohta käivate andmete kvaliteeti. Vaata ka projekti käigus digiteeritud ning segmenteeritud isikute bibliograafiaid onlines -> http://www.digar.ee/arhiiv/et/kollektsioonid?id=9655

Isikud (.zip)
OAI-PMH
Isikud MARC21XML formaadis

Kollektiivid (.zip)
OAI-PMH
Organisatsioonid MARC21XML formaadis

Uueneb 1x kuus! Viimati uuendatud 03.03.2023

Abiks andmekaevandamisel

OAI-PMH protokoll on Open Archives Initiative loodud standard, mis pakub infosüsteemist sõltumatut koostalitusvõimelist standardit metaandmete jagamiseks ning kogumiseks. Metainfo, mida üle OAI-PMH protokolli saadetakse, on XML vormingus.
OAI-PMH standard kirjeldab järgnevaid päringuid ja meetoteid:

resumptionTokeniga

header

Rahvusraamatukogu OAI-PMH serverile saadetavaid päringuid on võimalik täiendada/piiritleda ajaliselt, vorminguliselt kui ka erinevate kogumite kaupa kasutades järgnevaid parameetreid:

set

Andmete vormingud

metadataPrefix

https://data.digar.ee/repox/OAIHandler?verb=ListRecords&set;=poster&metadataPrefix;=edm

From

Until

http://dea.digar.ee/cgi-bin/dea-oaiserver?verb=ListRecords&metadataPrefix;=marc21&from;=2017-05-01&until;=2017-05-10

Tulenevalt OAI-PMH standardist on olemas kaks võimalikku viisi, kuidas ehitada liidese töötamise loogikat – kasutada ListRecords päringut või ListIdentifiers ja GetRecord päringut koos.

Kui kõik allikad ja allika kohta käivad metaandmed ei ole olulised ja huvitab ainult tekstiline sisu ning OAI-PMH protokolli kasutada tundub liigselt keeruline võib päringuid saata ka otse dea.digar.ee süsteemi kasutades jõu meetodit. Võttes aluseks Eesti Rahvusraamatukogus registreeritud ajalehtede nimistut ja igale lehele omistatud koodi on võimalik pärida dea.digar.ee baasist järgmise süntaksi abil. http://dea.digar.ee/article-text-XML/[ajalehekood]/[aasta]/[kuu]/[päev]/[artiklinumber].1
artiklinumbrit suurendada seni kuni süsteem tagastab XML vastuses tagi.
Näide: http://dea.digar.ee/article-text-XML/eestiekspress/2014/01/02/8.1

Andmete vormingud ja nende kirjeldused

Dublin Core Metadata Element Set, Version 1.1 (14.07.2017) vt. http://dublincore.org/documents/dces/
DCMI Metadata Terms (14.07.2017) vt. http://dublincore.org/documents/dcmi-terms/
MARC to Dublin Core Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/marc2dc.html
Dublin Core to MARC Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/dccross.html

MARC21 ja Dublin Core lihtsustatud väljade kirjeldused

Küsi abi julgesti!

Elekter, aur ja hobujõud 20. saj vahetusel.

Peeter Tinits
16.11.2020

Elekter, aur ja hobujõud 20. saj vahetusel.

Siin on üks tekstiotsingu kasutusnäidis. Näiteks võib meid huvitada, kuidas kajastati eri energiaallikaid 20. sajandi alguses Eestis. Võimalike küsimuste hulk on suur, siin keskendume lihtsamaile neist. Näidise juures on koodinäidised, mis võimaldavad sarnaseid otsinguid dea.digar.ee avatud kogudest teha.

Tutvu koodi, meetodite ja kasutatud andmetega https://data.digar.ee/samples/elekter_aur_hobu.html

See oli vaid üks näidis sellest, kuidas ja milleks võiks dea.digar.ee avatud andmekogu kasutada. Praegu vaatasime energialiike, mida kasutati transpordis 20. sajandi esimeses pooles. Avatud kood annab võimaluse analüüsi kujundada täpselt enda soovide järgi. Kõige lihtsamalt on võimalik proovida teisi otsisõnud, teisi väljaandeid või otsida tulemusi mõnest teisest ajastust. Analoogsete otsingute tegemiseks piisab lihtsalt kui vahetada otsisõna, keerulisemate muudatuste tegemiseks on võimalik muuta ja kirjutada koodis uusi töötlussamme.

Automaatse märksõnastamise KRATT

Automaatse märksõnastamise KRATT (prototüüp)

Masinõppel ja tehisintellektil tuginev prototüüp, mille abil automatiseerida väljaannete sisuanalüüsi ja märksõnastamist.

Proovi töötavat protüüpi https://booktags.nlib.ee/
Automaatse märksõnastamise Kratt : prototüübi kasutusjuhend
Automaatse märksõnastamise Kratt : detailanalüüs

Failide sisuline kirjeldus eesti keeles README_ET.txt
Failide sisuline kirjeldus inglise keeles README_EN.txt
Automaatse märksõnastamise Krati prototüübi treenimiseks kasutatud raamatute metaandmed JSON lines failina meta.jsonl
Automaatse märksõnastamise Krati prototüübi treenimiseks kasutatud raamatute toorktekstid .txt failidena full_texts.zip
Toortekstidest eraldatud morfoloogiline informatsioon JSON lines failidena morphological_data.zip

Marlene Dietrich läbi aja

Tugineb vabalt kättesaadaval ainesel ja on vabalt kasutamiseks kõigile.
Ligipääsu täistekstidele võib kasutada üsna erinevatel viisidel. Siin on toodud paar lihtsamat töötluse näidist kui me otsiksime tekstidest üht fraasi.

Vaata lähemalt Marlene Dietrichi näitel

Kood, millega andmestik ja analüüsid loodi on Githubis GLAMlab abivahendiks.
Eesti keele töötluseks kasutati tasuta allalaetavat EstNLTK tarkvarateek Pythonis.
Teemamudelid loodi vabavaralist tarkvarapaketti MALLET kasutades.

DIGARi korpus vabalt kasutataval ainesel

Andmeid kaevandas ja protsessis Peeter Tinits (TLÜ)

Korpus sisaldab Eesi rahvusbibliograafias ERB registreeritud väljaannete tekste, mis on DIGARis arhiveeritud ja kasutajatele piiranguteta kättesaadavaks tehtud.
.tsv failid sisaldavad töödeldud toortekste, mis on saadud pdf-failide konverteerimisest tekstideks (programmiga pdf2txt) ja analüüsitud EstNLTK Pythoni teekidega. Tulenevalt digiteeritud väljaande kvaliteedist ja tärktuvastamise hetkel kasutusel olnud vahenditest võib OCR-i kvaliteet olla ebaühtlane. Seetõttu ei ole kõik saadaval olnud tekstid alati uurimiskõlbulikud.

Loe lähemalt digar_corpus.pdf
Küsi allikmaterjali .txt kujul (3416 faili kokku 196MB) data@nlib.ee
Kood, millega andmestik ja analüüs loodi Github hoidlas.
Lae alla protsessitud korpuse failid processed_pdf_tsv.zip (950MB)

Rahvusbibliograafia tekstikaeve korpus

Andmeid kaevandas ja protsessis Peeter Tinits (TLÜ)

Teemad

Tugineb vabalt kättesaadaval ainesel ja on vabalt kasutamiseks kõigile.
Kui Eesti rahvusbibliograafias registreeritakse kõik Eestis ilmunud väljaanded olenemata nende keelest ning välismaal eesti keeles avaldatud väljaanded, siis käesolevas projektis on analüüsitud üksnes eesti keeles avaldatud väljaandeid. Andmehulk sisaldab 193848 trükitud teose metaandmeid.

Loe lähemalt erb_corpus.pdf
Kood, millega andmestik ja analüüsid loodi Github hoidlas.
Lae alla protsessitud korpuse failid processed_txt_tsv.zip (120MB)

Uuema eesti ilukirjanduse mitmikute loendid

Uku Raudvere ja Kristel Uiboaed
Tartu Ülikooli raamatukogu

Mitmikud või n-grammid (täpsemalt vt nt Wikipediast) on esitatud failidena, ühe-, kahe- ja kolmekaupa. Info on failides tabulaatoriga eraldatud (tab-delimited) ja organiseeritud järgnevalt: sõnavorm või mitmik, selle sagedus kõigis allikates kokku, allikate arv, kus vorm või mitmik esines.

Loe lähemalt n-gram-raport.pdf
Siin on esitatud uuema eestikeelse ilukirjanduse tekstide põhjal koostatud keeleressursid:
• sõnavormide sagedusloend ( token_1_grams.tsv),
• sõnavormide bigrammid ( token_2_grams.tsv),
• sõnavormide trigrammid ( token_3_grams.tsv),
• algvormide ehk lemmade sagedusloend ( lemm_1_grams.tsv),
• algvormide ehk lemmade bigrammid ( lemma_2_grams.tsv),
• algvormide ehk lemmade trigrammid ( lemma_3_grams.tsv).

Kontakt: data@nlib.ee
Eesti Rahvusraamatukogu
Tõnismägi 2 15189 Tallinn Tel. 630 7611