Rahvusraamatukogu avalikud teenused on seadusest tulenevalt üldkättesaadavad infoteenused, mida osutatakse lugemissaalides, võrguteenustena ja teiste raamatukogude vahendusel. Rahvusraamatukogu arendab mitmekesist e-kogude (Digitaalarhiiv DIGAR, Eesti rahvusbibliograafia andmebaas ERB jne) kollektsioone ning pakub erinevaid e-teenuseid, arendab personaalseid sisuteenuseid ning sotsiaal- ja humanitaarvaldkonna ja kitsamatele sihtrühmadele suunatud teenuseid.
Avaandmete kasutamisel nõustute Creative Commons Public Domain (CC BY-SA 3.0 EE) litsentsitingimustega.
DIGAR (http://www.digar.ee) on Rahvusraamatukogu digiarhiiv, mis pakub juurdepääsu digitaalarhiivis talletatud väljaannetele. Nende hulgas on e-raamatuid, ajalehti, ajakirju, kaarte, noote, fotosid, postkaarte, plakateid, illustratsioone, audioraamatuid ning muusikafaile. Raamatute ja perioodika vorming on enamasti pdf või epub, pildimaterjalil jpeg ja helisalvestistel wav.
DIGAR'i andmefailid tehakse kättesaadavaks EDM vormingus (Europeana Data Model) läbi OAI-PMH protokolli.
Andmed uuendatud 03.03.2023
DIGAR Eesti artiklid (http://dea.digar.ee) pakub juurdepääsu kõigile läbi aegade Eestis ilmunud või välismaal eesti keeles avaldatud digitaalselt sündinud ja digiteeritud ajalehtedele, lisaks alates 2017.aastast ilmuvatele ajakirjadele ja jätkväljaannetele, mis on registreeritud aastaväljaandes „Eesti rahvusbibliograafia. Perioodika“.
Portaal võimaldab väljaandeid sirvida, aga ka otsida ajalehtedes avaldatut, lugeda artiklite täistekste, lisada artiklitele märksõnu, koostada leitud artiklitest nimestikke ning saata neid oma e-postile, jagada leitud informatsiooni sotsiaalvõrgustikes ja palju muud.
Kasutajatele on võimaldatud juurdepääs 2014. aastast ilmunud ajalehtedele, 2017.aastast ilmunud ajakirjadele ja jätkväljaannetele, ning osaliselt ka vanematele ajalehtedele. Portaali täiendatakse iga päev. Vanemad ajalehed (1821–2013) lisatakse nimetuse haaval vastavalt konverteerimiskavale.
DIGAR Eesti artiklid andmefailid tehakse kättesaadavaks läbi OAI-PMH protokolli ja on esitatud marc21xml vormingus.
Uueneb igapäevaselt!
Eesti rahvusbibliograafia andmebaas ERB ( http://erb.nlib.ee) registreerib andmed rahvusteavikute kohta. Rahvusteavikutena käsitletakse Eestis kõigis keeltes ning välismaal eesti keeles avaldatud väljaandeid, Eesti autorite teoseid ja nende tõlkeid sõltumata nende füüsilisest kandjast (paber, elektrooniline kandja). ERB koostamise põhimõtted on fikseeritud dokumendis Rahvusbibliograafia koostamise alused. Andmebaasi täiendatakse uute andmetega pidevalt, kuid mitte harvemini kui üks kord nädalas.
Registreerimise käigus koostatakse igale väljaandele detailne, teavikus avaldatud andmetele tuginev kirjeldus, mis sisaldab pealkirja, väljaandmise eest vastutavate isikute ja organisatsioonide andmeid, kirjastuse ja trükikoja andmeid, trükikorduse andmeid, füüsilist kirjeldust (leheküljed, mõõdud jne) ning kuuluvust mõnda sarja. Täiendavalt lisatakse juurde otsitunnused – märksõnad, liigiindeksid ning seotud isikute ja organisatsioonide normitud nimekujud.
Kõik andmed vastavad rahvusvahelistele standarditele:
Uueneb iga nädal. Kogumid laadide kaupa uuendatud viimati 03.03.2023
Eesti õigusbibliograafia - BIE
(https://www.nlib.ee/bie)
Andmebaasis on Eestis ilmunud õigusalane kirjandus, Eesti õigusteadlaste tööd ja Eesti õigussüsteemi kohta välismaal ilmunud raamatud, ajakirja- ja kogumikuartiklid, bakalaureuse-, magistri- ja doktoritööd.
Vabariigi Presidendi bibliograafia
(https://www.nlib.ee/vpb)
Andmebaasis on Vabariigi Presidendi kõned, artiklid ja intervjuud, Vabariigi Presidendi tegevus ja kirjutised tema kohta ning Vabariigi Presidendi Kantselei tegevuse kohta kirjutatu. Sisaldab raamatud, ajalehe-, ajakirja- ja kogumikuartikleid.
Reprod
(https://artiklid.elnet.ee/search~S17*est)
Sisaldab Eesti kunstnike, arhitektide ja fotograafide tööde reproduktsioone ajakirjadest ja raamatutest.
Parlamentarism
(https://artiklid.elnet.ee/search~S16*est)
Sisaldab Eesti ajakirjanduses ja Eestis ilmunud kogumikes avaldatud Riigikogu liikmete kirjutisi ja intervjuusid, Riigikogu kui institutsiooni tegevust ja parlamentarismi käsitlevaid artikleid Välismaistest teadusajakirjades ilmunud artikleid parlamentarismi üldsuundumuste ja Eesti parlamentarismi kohta ning 2014. aastani avaldatud teemakohaseid raamatuid ja üliõpilastöid.)
Uueneb 1x kuus! Viimati uuendatud 05.01.2023
Uueneb 1x kuus! Viimati uuendatud 03.03.2023
OAI-PMH protokoll on Open Archives Initiative loodud standard, mis pakub
infosüsteemist sõltumatut koostalitusvõimelist standardit metaandmete jagamiseks ning
kogumiseks. Metainfo, mida üle OAI-PMH protokolli saadetakse, on XML vormingus.
OAI-PMH standard kirjeldab järgnevaid päringuid ja meetoteid:
Küsi abi julgesti!
Peeter Tinits
16.11.2020
Siin on üks tekstiotsingu kasutusnäidis. Näiteks võib meid huvitada, kuidas kajastati eri energiaallikaid 20. sajandi alguses Eestis. Võimalike küsimuste hulk on suur, siin keskendume lihtsamaile neist. Näidise juures on koodinäidised, mis võimaldavad sarnaseid otsinguid dea.digar.ee avatud kogudest teha.
Tutvu koodi, meetodite ja kasutatud andmetega https://data.digar.ee/samples/elekter_aur_hobu.html
See oli vaid üks näidis sellest, kuidas ja milleks võiks dea.digar.ee avatud andmekogu kasutada. Praegu vaatasime energialiike, mida kasutati transpordis 20. sajandi esimeses pooles. Avatud kood annab võimaluse analüüsi kujundada täpselt enda soovide järgi. Kõige lihtsamalt on võimalik proovida teisi otsisõnud, teisi väljaandeid või otsida tulemusi mõnest teisest ajastust. Analoogsete otsingute tegemiseks piisab lihtsalt kui vahetada otsisõna, keerulisemate muudatuste tegemiseks on võimalik muuta ja kirjutada koodis uusi töötlussamme.
Masinõppel ja tehisintellektil tuginev prototüüp, mille abil automatiseerida väljaannete sisuanalüüsi ja märksõnastamist.
Proovi töötavat protüüpi https://booktags.nlib.ee/
Automaatse märksõnastamise Kratt : prototüübi kasutusjuhend
Automaatse märksõnastamise Kratt : detailanalüüs
Failide sisuline kirjeldus eesti keeles README_ET.txt
Failide sisuline kirjeldus inglise keeles README_EN.txt
Automaatse märksõnastamise Krati prototüübi treenimiseks kasutatud raamatute metaandmed JSON lines failina meta.jsonl
Automaatse märksõnastamise Krati prototüübi treenimiseks kasutatud raamatute toorktekstid .txt failidena full_texts.zip
Toortekstidest eraldatud morfoloogiline informatsioon JSON lines failidena morphological_data.zip
Tugineb vabalt kättesaadaval ainesel ja on vabalt kasutamiseks kõigile.
Ligipääsu täistekstidele võib kasutada üsna erinevatel viisidel. Siin on toodud paar lihtsamat töötluse näidist kui me otsiksime tekstidest üht fraasi.
Vaata lähemalt Marlene Dietrichi näitel
Kood, millega andmestik ja analüüsid loodi on Githubis GLAMlab abivahendiks.
Eesti keele töötluseks kasutati tasuta allalaetavat EstNLTK tarkvarateek Pythonis.
Teemamudelid loodi vabavaralist tarkvarapaketti MALLET kasutades.
Andmeid kaevandas ja protsessis Peeter Tinits (TLÜ)
Korpus sisaldab Eesi rahvusbibliograafias ERB registreeritud väljaannete tekste, mis on DIGARis arhiveeritud ja kasutajatele piiranguteta kättesaadavaks tehtud.
.tsv failid sisaldavad töödeldud toortekste, mis on saadud pdf-failide konverteerimisest tekstideks (programmiga pdf2txt) ja analüüsitud EstNLTK Pythoni teekidega.
Tulenevalt digiteeritud väljaande kvaliteedist ja tärktuvastamise hetkel kasutusel olnud vahenditest võib OCR-i kvaliteet olla ebaühtlane. Seetõttu ei ole kõik saadaval olnud tekstid alati uurimiskõlbulikud.
Loe lähemalt digar_corpus.pdf
Küsi allikmaterjali .txt kujul (3416 faili kokku 196MB) data@nlib.ee
Kood, millega andmestik ja analüüs loodi Github hoidlas.
Lae alla protsessitud korpuse failid processed_pdf_tsv.zip (950MB)
Andmeid kaevandas ja protsessis Peeter Tinits (TLÜ)
Tugineb vabalt kättesaadaval ainesel ja on vabalt kasutamiseks kõigile.
Kui Eesti rahvusbibliograafias registreeritakse kõik Eestis ilmunud väljaanded olenemata nende keelest ning välismaal eesti keeles avaldatud väljaanded, siis käesolevas projektis on analüüsitud üksnes eesti keeles avaldatud väljaandeid. Andmehulk sisaldab 193848 trükitud teose metaandmeid.
Loe lähemalt erb_corpus.pdf
Kood, millega andmestik ja analüüsid loodi Github hoidlas.
Lae alla protsessitud korpuse failid processed_txt_tsv.zip (120MB)
Uku Raudvere ja Kristel Uiboaed
Tartu Ülikooli raamatukogu
Mitmikud või n-grammid (täpsemalt vt nt Wikipediast) on esitatud failidena, ühe-, kahe- ja kolmekaupa.
Info on failides tabulaatoriga eraldatud (tab-delimited) ja organiseeritud järgnevalt: sõnavorm või mitmik,
selle sagedus kõigis allikates kokku, allikate arv, kus vorm või mitmik esines.
Loe lähemalt n-gram-raport.pdf
Siin on esitatud uuema eestikeelse ilukirjanduse tekstide põhjal koostatud keeleressursid:
• sõnavormide sagedusloend ( token_1_grams.tsv),
• sõnavormide bigrammid ( token_2_grams.tsv),
• sõnavormide trigrammid ( token_3_grams.tsv),
• algvormide ehk lemmade sagedusloend ( lemm_1_grams.tsv),
• algvormide ehk lemmade bigrammid ( lemma_2_grams.tsv),
• algvormide ehk lemmade trigrammid ( lemma_3_grams.tsv).