Alates 30.03.2023 on kasutusel uus aadress

https://digiLab.RaRa.ee

 

Rahvusraamatukogu avalikud teenused on seadusest tulenevalt üldkättesaadavad infoteenused, mida osutatakse lugemissaalides, võrguteenustena ja teiste raamatukogude vahendusel. Rahvusraamatukogu arendab mitmekesist e-kogude (Digitaalarhiiv DIGAR, Eesti rahvusbibliograafia andmebaas ERB jne) kollektsioone ning pakub erinevaid e-teenuseid, arendab personaalseid sisuteenuseid ning sotsiaal- ja humanitaarvaldkonna ja kitsamatele sihtrühmadele suunatud teenuseid.

Avaandmete kasutamisel nõustute Creative Commons Public Domain (CC BY-SA 3.0 EE) litsentsitingimustega.

Rahvusraamatukogu digiarhiiv DIGAR

DIGAR (http://www.digar.ee) on Rahvusraamatukogu digiarhiiv, mis pakub juurdepääsu digitaalarhiivis talletatud väljaannetele. Nende hulgas on e-raamatuid, ajalehti, ajakirju, kaarte, noote, fotosid, postkaarte, plakateid, illustratsioone, audioraamatuid ning muusikafaile. Raamatute ja perioodika vorming on enamasti pdf või epub, pildimaterjalil jpeg ja helisalvestistel wav.

DIGAR'i andmefailid tehakse kättesaadavaks EDM vormingus (Europeana Data Model) läbi OAI-PMH protokolli.


XML

Raamatud


XML

Kaardid


XML

Postkaardid


XML

Plakatid

ˇ

XML

Helisalvestised


XML

Standardid


XML

Noodid


XML

Perioodika


XML

Jätkväljaanded


Andmed uuendatud 03.03.2023





DIGAR Eesti artiklid

DIGAR Eesti artiklid (http://dea.digar.ee) pakub juurdepääsu kõigile läbi aegade Eestis ilmunud või välismaal eesti keeles avaldatud digitaalselt sündinud ja digiteeritud ajalehtedele, lisaks alates 2017.aastast ilmuvatele ajakirjadele ja jätkväljaannetele, mis on registreeritud aastaväljaandes „Eesti rahvusbibliograafia. Perioodika“.

Portaal võimaldab väljaandeid sirvida, aga ka otsida ajalehtedes avaldatut, lugeda artiklite täistekste, lisada artiklitele märksõnu, koostada leitud artiklitest nimestikke ning saata neid oma e-postile, jagada leitud informatsiooni sotsiaalvõrgustikes ja palju muud.

Kasutajatele on võimaldatud juurdepääs 2014. aastast ilmunud ajalehtedele, 2017.aastast ilmunud ajakirjadele ja jätkväljaannetele, ning osaliselt ka vanematele ajalehtedele. Portaali täiendatakse iga päev. Vanemad ajalehed (1821–2013) lisatakse nimetuse haaval vastavalt konverteerimiskavale.

DIGAR Eesti artiklid andmefailid tehakse kättesaadavaks läbi OAI-PMH protokolli ja on esitatud marc21xml vormingus.

MARC21XML

Masinloetavad artiklid

Ülevaade

Ülevaade sisust

Ligipääs
toorandmetele

Ligipääs

Access
to raw data

Access

Näide 1
(Marlene Dietrich)

Väljavõte andmetest

Näide 2
hobujõud

Elekter, aur,

Küsi faile

Ajalehtede toorandmed

Uueneb igapäevaselt!





Eesti Rahvusbibliograafia

Eesti rahvusbibliograafia andmebaas ERB ( http://erb.nlib.ee) registreerib andmed rahvusteavikute kohta. Rahvusteavikutena käsitletakse Eestis kõigis keeltes ning välismaal eesti keeles avaldatud väljaandeid, Eesti autorite teoseid ja nende tõlkeid sõltumata nende füüsilisest kandjast (paber, elektrooniline kandja). ERB koostamise põhimõtted on fikseeritud dokumendis Rahvusbibliograafia koostamise alused. Andmebaasi täiendatakse uute andmetega pidevalt, kuid mitte harvemini kui üks kord nädalas.

Registreerimise käigus koostatakse igale väljaandele detailne, teavikus avaldatud andmetele tuginev kirjeldus, mis sisaldab pealkirja, väljaandmise eest vastutavate isikute ja organisatsioonide andmeid, kirjastuse ja trükikoja andmeid, trükikorduse andmeid, füüsilist kirjeldust (leheküljed, mõõdud jne) ning kuuluvust mõnda sarja. Täiendavalt lisatakse juurde otsitunnused – märksõnad, liigiindeksid ning seotud isikute ja organisatsioonide normitud nimekujud.

Kõik andmed vastavad rahvusvahelistele standarditele:

    - ISBD (International Standard Bibliografic Description) - kirjeldavad andmed;
    - AACR2 (Anglo-American Cataloguing Rules 2) - otsitunnused;
    - UDC (Unversal Decimal Classification) - liigiindeksid;
    - MARC21 – kasutusel andmevahetusvorminguna.

ERB avaandmed on jaotatud teavikulaadide järgi rühmadesse: raamatud, perioodika (ajakirjad, ajalehed, jätkväljaanded), kaardid, noodid, videosalvestised, helisalvestised, piltteavikud ning multimeediaväljaanded. Sealjuures on andmed raamatute kohta jaotatud kaheks – eestikeelsed ja muukeelsed raamatud.

Avaandmed on esitatud marc21xml vormingus.

MARC21XML OAI-PMH

Eestikeelne raamat

MARC21XML OAI-PMH

Muukeelne raamat

MARC21XML OAI-PMH

Kaardid

MARC21XML OAI-PMH

Multimeedia

MARC21XML OAI-PMH

Noodid

MARC21XML OAI-PMH

Piltteavikud

MARC21XML OAI-PMH

Helisalvestised

MARC21XML OAI-PMH

Video

MARC21XML OAI-PMH

Perioodika

MARC21XML OAI-PMH

Vabakasutuses teosed


Uued ja muudetud kirjed MARC21 formaadis.

Uueneb iga nädal. Kogumid laadide kaupa uuendatud viimati 03.03.2023





Rahvusraamatukogus loodud artiklite kogumid.

Eesti õigusbibliograafia - BIE
(https://www.nlib.ee/bie)

Andmebaasis on Eestis ilmunud õigusalane kirjandus, Eesti õigusteadlaste tööd ja Eesti õigussüsteemi kohta välismaal ilmunud raamatud, ajakirja- ja kogumikuartiklid, bakalaureuse-, magistri- ja doktoritööd.

Vabariigi Presidendi bibliograafia
(https://www.nlib.ee/vpb)

Andmebaasis on Vabariigi Presidendi kõned, artiklid ja intervjuud, Vabariigi Presidendi tegevus ja kirjutised tema kohta ning Vabariigi Presidendi Kantselei tegevuse kohta kirjutatu. Sisaldab raamatud, ajalehe-, ajakirja- ja kogumikuartikleid.

Reprod
(https://artiklid.elnet.ee/search~S17*est)

Sisaldab Eesti kunstnike, arhitektide ja fotograafide tööde reproduktsioone ajakirjadest ja raamatutest.

Parlamentarism
(https://artiklid.elnet.ee/search~S16*est)

Sisaldab Eesti ajakirjanduses ja Eestis ilmunud kogumikes avaldatud Riigikogu liikmete kirjutisi ja intervjuusid, Riigikogu kui institutsiooni tegevust ja parlamentarismi käsitlevaid artikleid Välismaistest teadusajakirjades ilmunud artikleid parlamentarismi üldsuundumuste ja Eesti parlamentarismi kohta ning 2014. aastani avaldatud teemakohaseid raamatuid ja üliõpilastöid.)



                  BIE.zip
                   xml

            Eesti õigusbibliograafia MARC21XML formaadis



                  VPB.zip
                   xml

            Vabariigi Presidendi bibliograafia MARC21XML formaadis



                Repro.zip
                   xml

            Repro kirjed MARC21XML formaadis



                  Parl.zip
                   xml

            Parlamentarism MARC21XML formaadis





Uueneb 1x kuus! Viimati uuendatud 05.01.2023





Eesti rahvusbibliograafia isikute ja kollektiivide andmed

EV100 “Kuulsad eestlased - linkandmete pilv” eesmärgiks on avada huvilistele taaskasutamiseks mäluasutuste käes olevad andmed Eesti Vabariigi suurkujude kohta ning tõsta nende kohta käivate andmete kvaliteeti. Vaata ka projekti käigus digiteeritud ning segmenteeritud isikute bibliograafiaid onlines -> http://www.digar.ee/arhiiv/et/kollektsioonid?id=9655

Isikud (.zip)
OAI-PMH

Isikud MARC21XML formaadis


Kollektiivid (.zip)
OAI-PMH

Organisatsioonid MARC21XML formaadis


Uueneb 1x kuus! Viimati uuendatud 03.03.2023





Abiks andmekaevandamisel


OAI-PMH protokoll on Open Archives Initiative loodud standard, mis pakub infosüsteemist sõltumatut koostalitusvõimelist standardit metaandmete jagamiseks ning kogumiseks. Metainfo, mida üle OAI-PMH protokolli saadetakse, on XML vormingus.
OAI-PMH standard kirjeldab järgnevaid päringuid ja meetoteid:

    ListRecords - päringu tulemuseks on reeglina XML objekide kogum, mis sisaldab üldjuhul mitut erinevat kirjet ühes vastuses. Selleks, et pärida suurt hulka kirjeid, võimaldab ListRecords kontrollida saadetavate metaandmete voolu resumptionTokeniga
    ResumptionToken - on kursor, mis ütleb, kust andmete ülekandmist jätkata.
    ListIdentifiers - on ListRecords päringu vähendatud versioon, kust on välja võetud täielik kirje objekt ning tagastatakse ainult objektis sisalduv identifikaator (header)
    GetRecord - päringut kasutatakse üksiku kirje objekti saamiseks tema unikaalse identifikaatori järgi
Rahvusraamatukogu OAI-PMH serverile saadetavaid päringuid on võimalik täiendada/piiritleda ajaliselt, vorminguliselt kui ka erinevate kogumite kaupa kasutades järgnevaid parameetreid: Tulenevalt OAI-PMH standardist on olemas kaks võimalikku viisi, kuidas ehitada liidese töötamise loogikat – kasutada ListRecords päringut või ListIdentifiers ja GetRecord päringut koos.


Kui kõik allikad ja allika kohta käivad metaandmed ei ole olulised ja huvitab ainult tekstiline sisu ning OAI-PMH protokolli kasutada tundub liigselt keeruline võib päringuid saata ka otse dea.digar.ee süsteemi kasutades jõu meetodit. Võttes aluseks Eesti Rahvusraamatukogus registreeritud ajalehtede nimistut ja igale lehele omistatud koodi on võimalik pärida dea.digar.ee baasist järgmise süntaksi abil. http://dea.digar.ee/article-text-XML/[ajalehekood]/[aasta]/[kuu]/[päev]/[artiklinumber].1
artiklinumbrit suurendada seni kuni süsteem tagastab XML vastuses tagi.
Näide: http://dea.digar.ee/article-text-XML/eestiekspress/2014/01/02/8.1

Andmete vormingud ja nende kirjeldused

Dublin Core Metadata Element Set, Version 1.1 (14.07.2017) vt. http://dublincore.org/documents/dces/
DCMI Metadata Terms (14.07.2017) vt. http://dublincore.org/documents/dcmi-terms/
MARC to Dublin Core Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/marc2dc.html
Dublin Core to MARC Crosswalk (14.07.2017) vt. https://www.loc.gov/marc/dccross.html

MARC21 ja Dublin Core lihtsustatud väljade kirjeldused

    MARC21 100 = <dc:creator> = Autor
    MARC21 700 = <dc:creator> = Autor
    MARC21 245 = <dc:title> = Artikli pealkiri
    MARC21 260 $c = <dc:date> = Väljaande ilmumisaasta
    MARC21 260 $a $b = <dc:publisher> = Väljaande kirjastus ja ilumiskoht
    MARC21 540 = <dc:rights> = Juurdepääsu piirangu tähtaeg
    MARC21 542 = <dc:rights> = Autoriõiguse märkus ja litsents
    MARC21 588 = <dc:description> = Andmete allikas
    MARC21 650 = <dc:subject> = Märksõnad
    MARC21 690 = <dc:subject> = Kasutaja lisatud märksõnad (võib sisaldada isikute ja organisatsioonide nimesid)
    MARC21 773 $n = <dc:type> = Ajalehe kategooria Nt. päevaleht, maakonnaleht jne.
    MARC21 773 = <dc:type> = Artikli ilmumise andmed
    MARC21 773 $3 = <dc:type> = Väljaande laad: ajaleht, ajakiri, jätkväljaane
    MARC21 856 41= <dc:identifier> = Viide artiklile DIGAR'is
    MARC21 856 4_= <dc:identifier> = Viide väljaande kirjeldusele ESTER'is
    MARC21 998 = <dc:identifier> = Viide täistekstile
    MARC21 999 = <dc:type> = artikli tüüp

Küsi abi julgesti!






Elekter, aur ja hobujõud 20. saj vahetusel.

Peeter Tinits
16.11.2020


Siin on üks tekstiotsingu kasutusnäidis. Näiteks võib meid huvitada, kuidas kajastati eri energiaallikaid 20. sajandi alguses Eestis. Võimalike küsimuste hulk on suur, siin keskendume lihtsamaile neist. Näidise juures on koodinäidised, mis võimaldavad sarnaseid otsinguid dea.digar.ee avatud kogudest teha.

Tutvu koodi, meetodite ja kasutatud andmetega https://data.digar.ee/samples/elekter_aur_hobu.html

See oli vaid üks näidis sellest, kuidas ja milleks võiks dea.digar.ee avatud andmekogu kasutada. Praegu vaatasime energialiike, mida kasutati transpordis 20. sajandi esimeses pooles. Avatud kood annab võimaluse analüüsi kujundada täpselt enda soovide järgi. Kõige lihtsamalt on võimalik proovida teisi otsisõnud, teisi väljaandeid või otsida tulemusi mõnest teisest ajastust. Analoogsete otsingute tegemiseks piisab lihtsalt kui vahetada otsisõna, keerulisemate muudatuste tegemiseks on võimalik muuta ja kirjutada koodis uusi töötlussamme.



Automaatse märksõnastamise KRATT



Masinõppel ja tehisintellektil tuginev prototüüp, mille abil automatiseerida väljaannete sisuanalüüsi ja märksõnastamist.

Proovi töötavat protüüpi https://booktags.nlib.ee/
Automaatse märksõnastamise Kratt : prototüübi kasutusjuhend
Automaatse märksõnastamise Kratt : detailanalüüs

Failide sisuline kirjeldus eesti keeles README_ET.txt
Failide sisuline kirjeldus inglise keeles README_EN.txt
Automaatse märksõnastamise Krati prototüübi treenimiseks kasutatud raamatute metaandmed JSON lines failina meta.jsonl
Automaatse märksõnastamise Krati prototüübi treenimiseks kasutatud raamatute toorktekstid .txt failidena full_texts.zip
Toortekstidest eraldatud morfoloogiline informatsioon JSON lines failidena morphological_data.zip


Marlene Dietrich läbi aja



Tugineb vabalt kättesaadaval ainesel ja on vabalt kasutamiseks kõigile.
Ligipääsu täistekstidele võib kasutada üsna erinevatel viisidel. Siin on toodud paar lihtsamat töötluse näidist kui me otsiksime tekstidest üht fraasi.

Vaata lähemalt Marlene Dietrichi näitel

Kood, millega andmestik ja analüüsid loodi on Githubis GLAMlab abivahendiks.
Eesti keele töötluseks kasutati tasuta allalaetavat EstNLTK tarkvarateek Pythonis.
Teemamudelid loodi vabavaralist tarkvarapaketti MALLET kasutades.




DIGARi korpus vabalt kasutataval ainesel

Andmeid kaevandas ja protsessis Peeter Tinits (TLÜ)

Korpus sisaldab Eesi rahvusbibliograafias ERB registreeritud väljaannete tekste, mis on DIGARis arhiveeritud ja kasutajatele piiranguteta kättesaadavaks tehtud.
.tsv failid sisaldavad töödeldud toortekste, mis on saadud pdf-failide konverteerimisest tekstideks (programmiga pdf2txt) ja analüüsitud EstNLTK Pythoni teekidega. Tulenevalt digiteeritud väljaande kvaliteedist ja tärktuvastamise hetkel kasutusel olnud vahenditest võib OCR-i kvaliteet olla ebaühtlane. Seetõttu ei ole kõik saadaval olnud tekstid alati uurimiskõlbulikud.

Loe lähemalt digar_corpus.pdf
Küsi allikmaterjali .txt kujul (3416 faili kokku 196MB) data@nlib.ee
Kood, millega andmestik ja analüüs loodi Github hoidlas.
Lae alla protsessitud korpuse failid processed_pdf_tsv.zip (950MB)

Rahvusbibliograafia tekstikaeve korpus

Andmeid kaevandas ja protsessis Peeter Tinits (TLÜ)



Tugineb vabalt kättesaadaval ainesel ja on vabalt kasutamiseks kõigile.
Kui Eesti rahvusbibliograafias registreeritakse kõik Eestis ilmunud väljaanded olenemata nende keelest ning välismaal eesti keeles avaldatud väljaanded, siis käesolevas projektis on analüüsitud üksnes eesti keeles avaldatud väljaandeid. Andmehulk sisaldab 193848 trükitud teose metaandmeid.

Loe lähemalt erb_corpus.pdf
Kood, millega andmestik ja analüüsid loodi Github hoidlas.
Lae alla protsessitud korpuse failid processed_txt_tsv.zip (120MB)




Uuema eesti ilukirjanduse mitmikute loendid

Uku Raudvere ja Kristel Uiboaed
Tartu Ülikooli raamatukogu


Mitmikud või n-grammid (täpsemalt vt nt Wikipediast) on esitatud failidena, ühe-, kahe- ja kolmekaupa. Info on failides tabulaatoriga eraldatud (tab-delimited) ja organiseeritud järgnevalt: sõnavorm või mitmik, selle sagedus kõigis allikates kokku, allikate arv, kus vorm või mitmik esines.


Loe lähemalt n-gram-raport.pdf
Siin on esitatud uuema eestikeelse ilukirjanduse tekstide põhjal koostatud keeleressursid:
• sõnavormide sagedusloend ( token_1_grams.tsv),
• sõnavormide bigrammid ( token_2_grams.tsv),
• sõnavormide trigrammid ( token_3_grams.tsv),
• algvormide ehk lemmade sagedusloend ( lemm_1_grams.tsv),
• algvormide ehk lemmade bigrammid ( lemma_2_grams.tsv),
• algvormide ehk lemmade trigrammid ( lemma_3_grams.tsv).





Kontakt: data@nlib.ee
Eesti Rahvusraamatukogu
Tõnismägi 2 15189 Tallinn Tel. 630 7611