Archivace (nejen) českého webu z pohledu WebArchivu

Jak se na archivaci webu dívají autoři projektu WebArchiv?

Napsal Libor Coufal

Nedávný článek Patricka Zandla představil náš projekt. Autor dobře vystihl pozitiva i kritické body naší práce a podnítil zajímavou diskuzi. Informace o WebArchivu se objevily v médiích již dříve, přesto se o projektu zatím ví spíše v knihovnických kruzích. Rádi bychom využili příležitost k popularizaci projektu a přinášíme náš pohled na problematiku archivace (českého) webu.

h3. O archivaci webu

WebArchivArchivace webu není českým výmyslem; zabývají se jí zejména národní knihovny, ale i další instituce na celém světě. Důvodem pro archivování je ohromné množství dokumentů, které denně vzniká na internetu. Tyto dokumenty podávají svědectví o současném stavu společnosti a představují důležitou součást národního kulturního dědictví. Velká část z nich není dostupná v jiné podobě a zároveň se velmi rychle mění nebo zanikají. Archivace by měla umožnit jejich zachování pro budoucí
generace.

Nejvyspělejší z institucí, zabývajících se archivací webu, se sdružují v rámci konsorcia IIPC, aby sdílely zkušenosti a spolupracovaly na vývoji nástrojů a standardů.  Členem konsorcia se od letošního roku stala také Národní knihovna ČR. Přijetí mezi tyto průkopníky oboru je pro nás velkým uznáním a oceněním našich dosavadních výsledků.

Asi nejznámějším webovým archivem je Internet Archive, americká soukromá nezisková organizace, která buduje globální webový archiv od roku 1996. Proč tedy vynakládat úsilí na archivaci webu na národní úrovni, když už existuje IA? Při cíleném sklízení české národní domény jsme schopni se úžeji zaměřit a jít více do hloubky, resp. provádět sklízení častěji. Můžeme také lépe podchytit specificky česká témata, např. formou tématických kolekcí.

Spoléhání se na to, že archivaci webu plně obstará jediná instituce, s sebou nese značná rizika. Při technických problémech může např. dojít k nenahraditelné ztrátě archivovaných dokumentů. U soukromých institucí může také existovat větší riziko jejich zániku nebo změny činnosti. Právě otázku dlouhodobé kontinuity archivace webu se snaží vyřešit zapojení státních institucí jako jsou národní knihovny. Kromě toho, přístup do Internet Archive je dnes bezplatný, můžeme ale s jistotou tvrdit, že tomu tak bude vždy?

Existence paralelních projektů je ale hlavně přínosem pro všechny zúčastněné. Jak potvrzuje úspěšná spolupráce v IIPC, jde o sdílení a vzájemné doplňování, ne konkurenční boj.

h3. Zpráva o stavu WebArchivu

Od roku 2000 jsme při práci na WebArchivu získali značné zkušenosti a jsme schopni zajistit kvalitní archivaci českého webu. Po úvodní fázi testování a vývoje jsme vstoupili do fáze, kdy jsem schopni začít provádět pravidelné sklizně vybraných webů a online časopisů a několikrát ročně celoplošné sklizně české národní domény. Po technické stránce nepředstavuje archivace webu příliš velký problém. Díky dostupnosti open source softwaru můžeme používat naprosto stejnou technologii pro sklízení jako IA.

Limitujícím faktorem je vcelku logicky úložný prostor – jedna celoplošná sklizeň české domény v současnosti zabere řádově několik terabytů, jedno kolo výběrové sklizně pak několik desítek gigabytů. Vše se pochopitelně odvíjí od financí, ale při dostatku úložné kapacity jsme schopni zajistit sklízení českého webu v dostatečné frekvenci i záběru. V současnosti se velmi reálně rýsují možnosti na značné rozšíření našich úložných kapacit, v takovém případě jsme připraveni podstatným způsobem rozšířit i naši aktivitu a vybudovat kvalitní a obsáhlý archiv.

h3. Problémy s autorským právem

Paradoxně přestože většina zdrojů na internetu je volně dostupných, největší problémem zůstává umožnění přístupu do archivu přes internet. Zde narážíme na současnou právní úpravu Autorského zákona, která nám nedovoluje zpřístupňovat archivované zdroje na internetu, pokud nemáme výslovné svolení autora. Není to však specificky český problém, vzhledem k mezinárodním úmluvám je na tom podobně mnoho dalších zemí, zejména v Evropě a Severní Americe nebo také Austrálie. Autorská práva v těchto zemích se vztahují na díla 70 let po smrti autora – pro srovnání úprava autorského práva v Jižní Koreji chrání díla pouze po dobu pěti let od jejich vydání! Přestože s tímto stavem nejsme spokojeni, nezbývá nám než jej respektovat. V této souvislosti vítáme rozšířené používání licencování podle Creative Commons autory českých webových stránek.

V poněkud jiné pozici jsou soukromé společnosti, což ostatně sami otevřeně přiznávají i zástupci IA. Ten zvolil obrácený postup a zveřejňuje všechny zdroje, pokud to autor výslovně nezakáže. Ze stejné filozofie vychází např. také projekt Google Book Search. Tento přístup, známý jako opt-out, je velmi výhodný pro uživatele, ale také velice kontroverzní. Přestože Google Book Search zobrazuje pouze úryvky a ne celé texty,  naráží tento projekt na odpor řady vydavatelů. Nicméně ukazuje se, že soukromé firmy si dovolují více riskovat. Národní knihovny na sebe rizika soudních sporů brát nemohou, protože by to mohlo mít nedozírné následky na jejich další fungování.

h3. Co dodat?

WebArchiv je zatím stále především projektem výzkumu a vývoje, nikoliv provozní záležitostí. Jsme si vědomi, že existuje prostor pro vylepšení, zejména v oblasti přístupu do archivu. V současné době testujeme možnosti vyhledávání použitím nástrojů WERA a Wayback. Protože však momentálně nejsme schopni zpřístupňovat fulltextově celý WebArchiv, zaměřujeme se především na sklízení a bezpečné uložení zdrojů z českého webu.

Vyhledávání, v tomto kontextu jako služba především pro budoucí generace, je vzhledem k rozpočtovým a časovým omezením „až” další v pořadí. Přesto hledáme cesty, jak poskytnout uživatelům WebArchivu co nejvíce dat uložených v archivu s přiměřeným komfortem.

Se zkvalitněním přístupu do WebArchivu jsme závislí mj. také na zprovoznění centrálního datového úložiště Národní knihovny, které bude uchovávat též data vzniklá z digitalizačních projektů.


Zalinkovat článek na české služby Linkuj.cz - Media Blog

Diskuse k článku Archivace (nejen) českého webu z pohledu WebArchivu

Libor Coufal
Libor Coufal dodává
(27 reputaces)

Článek vznikl ve spolupráci s Ludmilou Celbovou a Tomášem Síbkem.

Adam Zbiejczuk
Adam Zbiejczuk dodává
(0 reputaces)

jste si jist těmi pěti lety v koreji? co jsem hledal, tak to vypadá spíše na 50 let (stejně jako v austrálii). pokud máte nějaký zdroj, tak prosím o link.

Libor Coufal
Libor Coufal dodává
(27 reputaces)

Adam Zbiejczuk: Vycházím z prezentace Chi-ju Lee z Korejské národní knihovny na květnovém Inforu 2007 v Praze. Požádal jsem autorku o vyjasnění, pokud odpoví, určitě dám vědět.

Austrálie přešla na 70 let od 1.1.2005.

Pokud byste měl jakékoliv dotazy, můžete mě kontaktovat emailem, který najdete na našich stránkách.

Luboš Račanský
Luboš Račanský dodává
(0 reputaces)

Archivace českého webu je činnost záslužná. Velká překážkou je podle mě papírování ohledně souhlasu s archivováním. Český webarchiv nezaznamenává blogy(případně v omezeném režimu). Chápu, že dost jich je pochybného obsahu, nicméně nezanedbatelná část jich zaznamenává nálady ve společnosti, což bude mít v budoucnu velký historický potenciál. Již zmiňovaný archiv.org zaznamenal i moje mizerné první stránky http://mujweb.cz/www/zvestov Jediná jeho nevýhoda je, že zmrší kódováni CP1250. Moje jiné stránky s UTF-8 archivuje v pořádku, o důvod víc už nikdy nepoužívat CP1250.

Chcete-li komentovat, zaregistrujte se nebo přihlašte

Autor Libor Coufal

Libor Coufal

Více o autorovi: Libor Coufal.

Reputace: 27
Články, které napsal:

Příbuzné rubriky

Tiny URL

Můžete použít zkrácenou adresu pro tento článek.

http://certodej.cz/S9314

Zdroje pro RSS

Můžete sledovat komentáře k tomuto článku přes RSS:

RSS komentářů k článku