-A
+A

Forum archiwizacji zasobów polskiego Internetu

Portugalia

Daniel Gomes – Zakład Informatyki Naukowej Fundacji Nauki i Technologii

Daniel Gomes

Daniel Gomes założył Arquivo.pt, portugalskie archiwum zasobów w sieci, w 2007 roku i obecnie kieruje tą usługą publiczną. Doktorat z informatyki uzyskał w 2007 roku. Jego praca dyplomowa dotyczyła projektowania wielkoskalowych systemów do przetwarzania danych internetowych. Od 2001 roku jest badaczem archiwizacji zasobów w sieci i internetowych systemów informatycznych

Streszczenie

Przeszukaj dawną sieć za pomocą Arquivo.pt

Arquivo.pt – portugalskie archiwum zasobów w sieci to infrastruktura badawcza, która przechowuje miliony plików z sieci zarchiwizowanych od lat 90. XX wieku, zawierających informacje w kilku językach. Zapewnia publiczną usługę wyszukiwania tych informacji. Niniejsza prezentacja pokrótce przedstawi usługi świadczone publicznie przez Arquivo.pt i opisze ich funkcjonowanie.

 

Niderlandy

Antal Posthumus – Archiwum Narodowe Królestwa Niderlandów

Streszczenie

Narodowe Archiwum Królestwa Niderlandów jako stała agencja rządowa i oficjalne archiwum rządu centralnego (ministerstw i ich agencji), ma prawny obowiązek, określony w Archiefwet, aby zabezpieczyć dokumentację rządową. W tym kontekście nasza rola nie polega na aktywnym tworzeniu kolekcji zarchiwizowanych stron internetowych poprzez ich samodzielne wybieranie i gromadzenie. Jest to kluczowa różnica w stosunku do innych archiwów narodowych, bibliotek narodowych i innych (między-) narodowych instytucji dziedzictwa narodowego.

Dlatego dokładamy wszelkich starań, aby doradzać naszym producentom, ministerstwom i ich agencjom, w jaki sposób tworzyć i ostatecznie przekazać tę specyficzną formę dokumentacji rządowej – zarchiwizowane publiczne strony internetowe. Jednym z przykładów wsparcia, jakie zaoferowaliśmy, było wydanie bardzo dobrze przyjętych wytycznych dotyczących archiwizacji stron internetowych (2018). Te wytyczne zostały również wykorzystane jako część wymagań europejskiego przetargu publicznego (2021). Przedmiotem przetargu było wykonanie centralnej platformy do pozyskiwania około 1500 publicznych stron internetowych rządu centralnego. W 2019 roku rozpoczęliśmy realizację projektu, aby móc zgromadzić zarchiwizowane materiały. Naszym celem było sformułowanie i wdrożenie wymagań dla różnych aspektów modelu OAIS. Innymi słowy, musieliśmy zintegrować z istniejącą infrastrukturą i przepływami pracy naszego repozytorium cyfrowego (w skrócie e-depot) procesy związane z pozyskiwaniem, przechowywaniem, zarządzaniem oraz zapewnianiem dostępu do zarchiwizowanych publicznych stron internetowych niderlandzkiego rządu centralnego. Te obszerne tematy są kluczowe dla mojej prezentacji, obok bardziej szczegółowych zagadnień i wyzwań, z którymi się spotkaliśmy, takimi jak:

  • Jakie opcje wyszukiwania będziemy mogli wdrożyć?
  • Jak prezentować i komunikować naszym użytkownikom, że treść nie została zebrana lub została częściowo zebrana z powodu (znanych) ograniczeń technicznych narzędzi archiwizujących z obsługą treści dynamicznych? Coś, co w naszych wytycznych nazywamy treścią niezdatną do zbioru.
  • Czy nasz krajowy schemat metadanych, model danych naszego e-depotu i EAD stosowane w naszym systemie zarządzania zbiorami wystarczą do zapewnienia odpowiednich metadanych administracyjnych, opisowych i technicznych dla zarchiwizowanych stron internetowych? A może musimy połączyć nasz schemat narodowy z innym schematem międzynarodowym?
  • Czy gotowa przeglądarka Open Wayback, zainstalowana w naszym rozwiązaniu Preservica, rozwiąże sprawę? Czy w naszej infrastrukturze musimy zainstalować osobną przeglądarkę?
  • Co to jest walidacja WARC i jakimi narzędziami walidować?

 

Unia Europejska

Silvia Sevilla – Urząd Oficjalnych Publikacji Wspólnot Europejskich

Silvia Sevilla

Silvia SEVILLA jest koordynatorką serwisu internetowego w Urzędzie Oficjalnych Publikacji Wspólnot Europejskich (OP), międzyinstytucjonalnym organie z siedzibą w Luksemburgu, który centralizuje wszystkie publikacje instytucji europejskich.

Silvia jest absolwentką prawa oraz studiów podyplomowych z zakresu administracji biznesowej i wydawniczej. Do Urzędu Publikacji dołączyła w 2005 roku i od tego momentu zajmowała różne stanowiska w usługach wydawniczych i archiwalnych. Prowadzi archiwum zasobów sieci od momentu powstania serwisu, którym zarządza w ramach Urzędu Publikacji od 2018 roku.

Streszczenie

Unia Europejska (UE) jest unią polityczną i gospodarczą 27 państw członkowskich. W imieniu instytucji UE Urząd Oficjalnych Publikacji Wspólnot Europejskich (OP) tworzy archiwum zasobów sieci UE. Jego celem jest archiwizacja treści internetowych dotyczących instytucji UE, aby zachować je długofalowo i udostępniać publicznie. Archiwum obejmuje różne strony internetowe instytucji, organów i agencji UE. Większość z nich znajduje się w domenie europa.eu i obejmuje wszystkie instytucje władz UE i organów regulacyjnych.

Strony internetowe znajdujące się na liście startowej (seed list) do archiwizacji są regularnie archiwizowane, co najmniej cztery razy w roku. Proces pobierania treści można zaplanować tak często, jak to konieczne. Możliwe jest również tworzenie archiwów „ad hoc”, jeśli właściciel serwisu złoży uzasadnioną prośbę. Najczęstszym powodem archiwizacji strony lub dokumentu jest to, że zawartość zostanie przeniesiona do trybu offline lub znacząco zmieniona.

Nasze archiwum zasobów sieci jest tworzone we współpracy z Archive-it (Internet Archive). Platforma ta oferuje automatyczne narzędzia do zarządzania seedami, określania zakresu i katalogowania, z możliwością pozyskiwania metadanych na poziomie seedów lub kolekcji. Obsługuje automatyczną archiwizację, którą można zaplanować oraz wyszukiwanie pełnotekstowe i hosting. Istnieje system kontroli jakości, możliwe jest pobieranie plików WARC.

W prezentacji zostaną przedstawione główne cechy, zawartość i zakres archiwum zasobów sieci UE, a także proces archiwizacji i wykorzystywane narzędzie. Dodatkowo prezentacja obejmie napotkane wyzwania i odpowiedzi na nie.

 

Węgry

Márton Németh – Narodowa Biblioteka Széchényiego

Márton Németh pracuje obecnie jako bibliotekarz internetowy w Dziale Archiwizacji Sieci w Narodowej Bibliotece Széchényiego w Budapeszcie. Posiada tytuły magistra historii, bibliotekoznawstwa i informatyki na Uniwersytecie Szeged na Węgrzech, magistra nauk europejskich na Uniwersytecie w Aalborg w Danii oraz międzynarodowy dyplom Digital Library Learning Oslo University College, Uniwersytetu w Tallinie i Uniwersytetu w Parmie. Właśnie obronił swoją pracę doktorską na temat archiwizacji zasobów sieci i ewolucji projektu na Węgrzech w Doktoranckiej Szkole Informatyki Uniwersytetu w Debreczynie na Węgrzech.

Streszczenie

W mojej prezentacji przedstawię krótkie wprowadzenie działań Narodowej Biblioteki Széchényiego w zakresie archiwizacji zasobów w Internecie. Podsumuję ramy organizacyjne wraz z otoczeniem legislacyjnym, dokonam szybkiego przeglądu historii archiwizacji cyfrowych zasobów w naszej bibliotece. Prezentacja obejmie również: sposoby archiwizacji, krótki przegląd różnych rodzajów zbiorów, zaplecza informatycznego archiwizacji stron internetowych, kwestii metadanych, rozpowszechniania i współpracy.

 

Hiszpania

Mar Pérez Morillo – Biblioteka Narodowa Hiszpanii

Mar Perez Morillo

Mar Pérez Morillo jest doktorem języka i literatury łacińskiej. Pracę w Hiszpańskiej Bibliotece Narodowej (BNE) rozpoczęła w 2004 roku. Od tego czasu zarządza instytucjonalną stroną internetową, mediami społecznościowymi biblioteki, archiwizacją internetową i depozytem prawnym niedrukowanym. Obecnie jest Dyrektorem ds. Procesów i Usług Cyfrowych w Bibliotece, a jej główne zadania to:

  • koordynacja projektów ponownego wykorzystania,
  • portale internetowe Biblioteki,
  • katalog biblioteczny online,
  • Biblioteka Cyfrowa,
  • Depozyt prawny niedrukowany (w tym archiwum internetowe) oraz
  • długoterminowy program konserwacji cyfrowej.
Streszczenie

Depozyt prawny niedrukowany i ochrona dziedzictwa cyfrowego

Hiszpańska Biblioteka Narodowa zaczęła archiwizować hiszpańską sieć w 2009 roku z pomocą Internet Archive. Zachowanie dziedzictwa dokumentacyjnego stało się jednym z głównych zadań Biblioteki, ponieważ publikacje coraz częściej przechodziły z urządzeń fizycznych do internetowych. Od tego czasu uchwalono (w 2011 r.) nową ustawę o depozycie prawnym, aby uwzględnić publikacje internetowe z zakresu Depozytu Prawnego. Ponieważ Hiszpania ma strukturę regionalną z rządami autonomicznymi, regiony autonomiczne mają kompetencje w zakresie depozytu prawnego. Tak więc niedrukowany depozyt prawny w Hiszpanii, w tym archiwum zasobów w sieci, jest wspólnym projektem, w ramach którego biblioteki regionalne wybierają i zarządzają własnymi zbiorami online we współpracy z Hiszpańską Biblioteką Narodową. Do tej pory rozmiar archiwizowanych informacji to 1 Pb, a zbiór polega na połączeniu corocznych archiwizacji domeny .es oraz selektywnych archiwizacji na różne tematy, które wymagają specjalnego zarządzania.

 

Luksemburg

Ben Els and Yves Maurer – Biblioteka Narodowa Luksemburga

Ben Els

Ben Els od 2017 roku jest cyfrowym kuratorem Luksemburskiego Archiwum Zasobów Sieci w Bibliotece Narodowej Luksemburga. Wcześniej pracował w sektorze kultury jako koordynator projektów dla Mierscher Kulturhaus i Séibühn Ënsber asbl. Ben ukończył studia licencjackie z kultur europejskich na Uniwersytecie Luksemburskim, a następnie uzyskał tytuł magistra z porównawczych studiów literackich i artystycznych na Uniwersytecie w Poczdamie.

Yves Maurer

Yves Maurer jest zastępcą kierownika działu IT i innowacji cyfrowych w Bibliotece Narodowej Luksemburga, a od 2016 r. kierownikiem technicznym luksemburskiego archiwum zasobów sieci. Odgrywa aktywną rolę we wszystkich cyfrowych wydarzeniach w bibliotece, od konserwacji cyfrowej, cyfrowego egzemplarza obowiązkowego, metod AI zwiększających użyteczność zdigitalizowanych materiałów, otwartych danych, po przejścia na nowy ILS itp. Wcześniej był odpowiedzialny za program cyfryzacji BnL od 2007 roku i założenie portalu luksemburskich gazet pod adresem eluxemburgensia.lu. W tym okresie był członkiem rad związanych z cyfryzacją w IFLA i Igelu. Wcześniej był wiceprezesem ds. rozwoju w Atril Language Engineering w Madrycie i odpowiadał za flagowe oprogramowanie do tłumaczenia wspomaganego komputerowo DéjàVu. Posiada tytuł magistra matematyki i informatyki uzyskany w Imperial College London.

Streszczenie

W tej prezentacji Yves Maurer (zastępca kierownika działu IT) i Ben Els (kurator cyfrowy, Luxembourg Web Archive) powrócą do początku programu archiwizacji internetowej w Bibliotece Narodowej Luksemburga. Przedstawione zostaną różne aspekty Luksemburskiego ustawodawstwa dotyczącego depozytów prawnych, spostrzeżeń z archiwizacji domeny .lu, a także kolekcje wydarzeń i tematów od 2016 r. Porozmawiamy również o wysiłkach na rzecz publicznego zasięgu, udziale społeczności i projektach badawczych związanych z luksemburskim archiwum zasobów sieci.

 

Dania

Anders Klindt Myrvoll – Królewska Biblioteka w Kopenhadze

Anders Klindt Myrvoll

Anders Klindt Myrvoll jest kierownikiem programu w Netarkivet. Wraz z zespołem mają na celu archiwizowanie, przechowywanie i udostępnianie duńskiej sieci w możliwie najlepszy sposób. Zarządza również projektami, dba o relacje z badaczami i innymi grupami użytkowników oraz reprezentuje archiwum zasobów sieci w międzynarodowych forach i projektach.

Ma wszechstronne wykształcenie w zakresie filozofii, IT i zarządzaniu. Przed dołączeniem do Netarkivet przez 13 lat zdobywał doświadczenia w zarządzaniu tłumaczeniami filmów animowanych i akcji dla kina i transmisji strumieniowych, dla klientów lokalnych, regionalnych i globalnych, a także w tworzeniu własnych produkcji.

LinkedIn

Twitter

Streszczenie

Netarkivet – narodowe duńskie archiwum zasobów sieci w Bibliotece Królewskiej w Kopenhadze

Prezentacja przedstawi historię, tło prawne i aktualny stan duńskiego archiwum zasobów sieci w Bibliotece Królewskiej w Kopenhadze. Przyjrzymy się liczbom, statystykom, zastosowanej technologii, zaktualizowanym przepisom dotyczącym egzemplarza obowiązkowego, które weszły w życie w 2005 r. co umożliwiło stworzenie archiwum. Zwrócona zostanie także uwaga na praktyki i wyzwania w zakresie gromadzenia danych oraz ekscytujące nowe możliwości, które daje nasza platforma SolrWayback, rozpowszechniana w ramach otwartego oprogramowania i dostępna dla badaczy od 2018 roku.

 

Chorwacja

Karolina Holub – Biblioteka Narodowa i Uniwersytecka w Zagrzebiu

Karolina Holub

Karolina Holub, doradca biblioteczny, koordynatorka Chorwackiego Centrum Rozwoju Bibliotek Cyfrowych w Bibliotece Narodowej i Uniwersyteckiej w Zagrzebiu.

Zajmuje się tworzeniem, wdrażaniem i utrzymaniem cyfrowych systemów bibliotecznych (Chorwackie Archiwum Internetowe, Zbiory Cyfrowe Biblioteki Narodowej i Uniwersyteckiej w Zagrzebiu, Chorwackie elektroniczne repozytoria prac dyplomowych itp.) oraz dba o interoperacyjność z innymi systemami dla wszystkich rodzajów zasobów. Od 2005 roku zajmuje się wszystkimi etapami archiwizacji zasobów sieci, a od 2016 roku koordynuje rozwój Chorwackiego Webarchiwum. Zarządza i uczestniczy w projektach digitalizacji Biblioteki oraz rozwoju portali tematycznych. Jest zaangażowana w projekty krajowe i międzynarodowe.

Streszczenie

Archiwizacja chorwackiej sieci

Zasoby sieci różnią się od innych rodzajów zasobów, którymi opiekują się biblioteki pod wieloma względami: częste zmiany adresów URL, treści i rozmiaru, krótki i nieprzewidywalny cykl życia itp. W Chorwacji zadanie zachowania tego typu zasobów dla przyszłych pokoleń należy do Biblioteki Narodowej i Uniwersyteckiej w Zagrzebiu. Biblioteka we współpracy z Uniwersyteckim Centrum Obliczeniowym Uniwersytetu w Zagrzebiu (Srce) w 2004 roku stworzyła system archiwizacji treści w Internecie – Chorwackie Webarchiwum. Prezentacja zapewni przegląd siedemnastoletniego doświadczenia w archiwizacji chorwackiej sieci z naciskiem na istniejące przepływy pracy.

 

Islandia

Kristinn Sigurðsson – Islandzka Biblioteka Narodowa i Uniwersytecka

Kristin Sigurdsson

Streszczenie
  • Budowanie islandzkiego archiwum internetowego.
  • Retrospektywa procesu i wyzwań związanych z tworzeniem krajowego archiwum zasobów sieci przy ograniczonym budżecie.

W tej prezentacji omówię, co skłoniło Bibliotekę Narodową Islandii do podjęcia tego zadania w latach 90., gdy bańka internetowa się powiększała. Ważną rolę w podejmowanych staraniach miało zrewidowane islandzkie ustawodawstwo dotyczące depozytów prawnych z 2002 r. Omówię także pracę, dzięki której powstało obszerne krajowe archiwum zasobów sieci. Archiwum obejmujące ponad dwie dekady, 5 miliardów dokumentów i prawie 150 terabajtów danych. I jest otwarte dla całego świata.

 

Czechy

Luboš Svoboda – Biblioteka Narodowa Republiki Czeskiej

Czeskie archiwum zasobów sieci Biblioteki Narodowej Republiki Czeskiej

Luboš Svoboda, Zdenko Vozár, Petra Habětínová

Krótkie wprowadzenie do ogólnej praktyki archiwizacji Webarchiv z punktu widzenia kuratorów stron internetowych i wsparcia technicznego. Przedstawimy nasze wewnętrzne oprogramowanie Seeder oraz naszą politykę archiwizacji, kwestie prawne, selektywne zbiory, wyzwania i oprogramowanie open-source (Heritirix/OpenWayback), którego używamy.

 

ul.Rakowiecka 2D, 02-517 Warszawa
tel.(+48 22) 565-46-00, fax (+48 22) 565-46-14
email: ndap@archiwa.gov.pl