←  Ukázat další články

Paměť novin: Revoluce v hledání historických dokumentů

Hledání v historických dokumentech se stává minulostí – doslova. Paměť novin přináší revoluci ve vyhledávání historických textů pomocí sémantické analýzy a umělé inteligence. Zapomeňte na přesné formulace a boj s OCR chybami – tento inovativní nástroj pochopí váš dotaz v přirozeném jazyce a během pár vteřin vám naservíruje relevantní články. Stačí zadat dotaz a ponořit se do autentických zpráv z minulosti.

Hledání v archivech nemusí být detektivka

Každý, kdo někdy pátral v historických dokumentech, ví, že vyhledávání v digitálních knihovnách je často běh na dlouhou trať. Tradiční fulltextová metoda naráží na limity – vyžaduje přesné zadání, ignoruje významové souvislosti a je závislá na kvalitě OCR. Výsledek? Hodiny ručního procházení materiálů s nejistým výsledkem.

Paměť novin tento problém řeší. Díky sémantickému vyhledávání a umělé inteligenci dokáže pochopit význam dotazu a najít související články, i když v nich není přesná shoda slov.

  • Najdete informace i s překlepy nebo archaickým pravopisem.
  • Dotazy zadáváte přirozeným jazykem, nemusíte hádat historické výrazy.
  • Šetříte hodiny času – výsledky dostanete během pár vteřin.
Hlavní strana webové aplikace Paměť novin.

Jak se dnes hledá v digitálních knihovnách?

Digitální knihovny zpřístupňují ohromné množství historických dokumentů – noviny, rukopisy, knihy, archiválie, mapy nebo hudebniny. Českým standardem je systém Kramerius, který už více než 20 let pomáhá s vyhledáváním, prohlížením a správou digitalizovaného obsahu. Navíc je jedním z našich klíčových projektů, na kterém dlouhodobě pracujeme.

Kramerius je založený na jednoduchém vyhledávání a procházení digitalizovaného obsahu, kde má uživatel možnost prohlížet sken analogového dokumentu, metadata a textovou vrstvu tzv. OCR (optické rozpoznání znaků).

Vyhledávání v Krameriovi funguje primárně fulltextově – po zadání dotazu systém nabídne našeptávač s relevantními tituly. Pokud uživatel nenajde požadovaný výsledek, Kramerius automaticky prohledá celý archiv a zobrazí odpovídající stránky. K dispozici je také panel s různými filtry pro zpřesnění vyhledávání.

Tento způsob vyhledávání funguje spolehlivě, pokud uživatel zná alespoň přibližně název požadovaného dokumentu. Pokud však Krameria využívá k vyhledávání informací z různých dokumentů při tvorbě komplikovanějších rešerší, stává se vyhledávání náročnější výzvou.

Vyhledávací strana webové aplikace Digitální knihovna Moravské zemské knihovny.

Proč je tradiční fulltextové vyhledávání složité?

  1. Kvalita OCR není vždy perfektní – staré noviny byly často vytištěny nekvalitně, používaly historické typy písma nebo se dochovaly ve špatném stavu. Pokud byla digitalizována reformátovaná kopie, například mikrofilm, může být textová vrstva plná chyb nebo zcela nečitelná.
  2. Vývoj jazyka – terminologie v historii se měnila, což ztěžuje nalezení relevantních výsledků. Například dnešní „fyzika“ se dříve psalo jako „fysika“ nebo “silozpyt“. Pokud uživatel nezná historické varianty slov nebo jejich pravopisu, může snadno přehlédnout důležité dokumenty.
  3. Ignorování významu textu – fulltextové vyhledávání hledá přesnou shodu slov, takže nenajde výsledky, které říkají totéž jinými slovy.

Sémantické vyhledávání v naší aplikaci Paměť novin

Paměť novin přináší nový přístup k vyhledávání v digitalizovaném obsahu. V Trinera jsme tento nástroj navrhli proto, že jsme si byli vědomi omezení tradičního vyhledávání v digitálních knihovnách. Na základě naší dlouholeté práce s Krameriem a zpětné vazby od badatelů jsme chtěli vytvořit řešení, které umožní efektivnější a intuitivnější práci s historickými daty.

Místo spoléhání na přesné shody slov používá Paměť novin sémantické vyhledávání postavené na bázi umělé inteligence, které rozumí významu položeného dotazu a na základě toho vyhledá související obsah.

Jak to funguje?

  1. Zadáte dotaz v přirozeném jazyce, např. „Které pivo bylo nejoblíbenější?“
  2. Systém analyzuje význam a vyhledá relevantní články bez ohledu na přesnou formulaci.
  3. Systém sestaví odpověď na základě nejvýznamnějších nalezených textů poskytne odkazy na konkrétní články včetně odkazů do zdrojových digitálních knihoven. Uživatel může výsledky zúžit podle konkrétního periodika nebo časového období.

Paměť novin si poradí i s chybami v OCR přepisech, archaickými výrazy nebo historickou terminologií – hledá totiž významově, nikoli doslovně.

Výsledek vyhledávání „Které pivo bylo nejoblíbenější?“ na webu Paměť novin

Co všechno v Paměti novin najdete?

Paměť novin v tuto chvíli obsahuje 340 tisíc stran z 16 historických periodik z let 1893–1913. Mezi nimi např.

  • Lidové noviny,
  • České slovo,
  • Národní politika,
  • Právo lidu,
  • Katolické listy,
  • Našinec,
  • Pražský Merkur,
  • Rovnost,
  • Ženský list,
  • Brněnské noviny...

Tento rozsah umožňuje uživatelům sledovat dobové reakce na historické události, analyzovat vývoj jazyka a získávat unikátní kontext pro svůj výzkum. Do budoucna tento obsah plánujeme ještě rozšířit.

Příklad z praxe: Skutečně si lidé vždy stěžovali na mládež?

V rámci testování Paměti novin jsme zvolili zajímavé téma, který se týká oblíbeného stereotypu – stížností starších generací na mládež.

Stížnosti na „dnešní mládež“ nejsou ničím novým. Často slýcháme, že je mládež oproti minulosti zkažená. Je však dnešní mladá generace skutečně horší než ty předchozí, nebo nebo si starší generace na mladé stěžuje odjakživa? Tuto tezi si můžeme snadno ověřit. Paměť novin vám umožní prohledávat historické texty a zjistit, zda se podobné výtky objevovaly v novinách i před více než sto lety – a jak tehdy vypadaly.

Zadali jsme dotaz: „Stěžovali si lidé na mládež?“

  • Systém během vteřin našel relevantní články z let 1899–1913.
  • Ukázalo se, že už tehdy lidé psali o mládeži jako o „nevychované, hlučné, zanedbané a neuctivé“.
  • Odpovědi si můžeme ověřit přímo ve zdrojových článcích.

Tyto poznatky ukazují, že stížnosti na mládež jsou nadčasové. Starší generace často vnímají změny jako úpadek, zatímco mladší je přirozeně přijímají a přizpůsobují se jim. To, co jedni považují za rozpad hodnot, druzí vnímají jako pokrok – a tento pocit úpadku často pramení z toho, že se mění způsoby života, zvyklosti i technologie, které formují každodenní realitu. Přitom si starší neuvědomují, že kdysi byli terčem stejných výtek. Ve skutečnosti se mládež zásadně nemění – mění se spíše prostředí a nástroje, které používá.

Paměť novin odhaluje tento věčný střet, pomáhá porozumět dobovým společenským normám a umožňuje ověřovat historické stereotypy přímo v primárních zdrojích.

Výsledek vyhledávání „Stěžovali si lidé na mládež” na webu Paměť novin.
“Jako knihovnice jsem v minulosti strávila stovky hodin rešeršemi v digitálních knihovnách a často narážela na limity fulltextového vyhledávání. Věděla jsem, že potřebné informace někde jsou, ale jejich nalezení bylo často demotivující a zdlouhavé. Někdy bych musela projít celé noviny stránku po stránce, což nebylo časově reálné. Kdybych tehdy měla nástroj jako Paměť novin, ušetřila bych si obrovské množství času – a spoustu frustrace. 🙂”
ANNIE BOGÁR SMETÁNKOVÁ
Digital Specialist & Analytics

Chcete si to vyzkoušet?

Paměť novin je zatím prototyp, který vylepšujeme. Chcete se zapojit? Vyzkoušejte aplikaci na www.pametnovin.cz a dejte nám zpětnou vazbu!

Přístupové údaje:


🔑 Uživatelské jméno: pametnovin
🔒 Heslo: pametnovin

Máte nápad, jak bychom mohli nástroj rozšířit? Chcete podobné vyhledávání i ve vaší instituci a nad vašimi daty? Ozvěte se nám a nezávazně to probereme!

Máte nápad nebo projekt k probrání?
Neváhejte mi zavolat nebo napsat pro nezávaznou konzultaci.
Jan photo
Jan Rychtář
CEO
+420 725 523 666
Volejte v pracovní dny, 7–17 hodin
jan.rychtar@trinera.cz
Pište kdykoliv
Ozveme se vám do 2 pracovních dnů
Děkujeme! Vaše zpráva dorazila.

Ozveme se do 2 pracovních dnů.

Zpráva nebyla odeslána.