Subskrybuj newsletter o cyfrowej humanistyce i innowacjach w sektorze kultury

Jak instytucje kultury i dziedzictwa mogą udostępniać dane o zbiorach?

Okładka lekcji: prowadzona przez kota ciężarówka z napisem DANE stojąca przed budynkiem muzeum / Źródło: AI

Wprowadzenie

Biblioteki, archiwa i muzea mogą być źródłami danych, które wykorzystać można do upowszechniania zbiorów, rozbudowywania ich opisów lub w ich badaniu. Co zrobić, żeby skutecznie udostępniać dane o własnych kolekcjach, jakich błędów unikać, do jakich standardów się odwoływać?

Część merytoryczna

Na te pytanie starała się odpowiedzieć grupa badaczy i badaczek, która pod koniec 2023 roku opublikowała artykuł A Checklist to Publish Collections as Data in GLAM Institutions. Opracowanie powstało na podstawie konsultacji z przedstawicielami i przedstawicielkami instytucji dziedzictwa: przeprowadzono analizę literatury przedmiotu, przygotowano specjalną ankietę, w której wzięły udział osoby z 43 instytucji (głównie z USA i Europy), zorganizowano webinarium - wszystko po to, żeby wypracować zestaw zasad udostępniania danych o kolekcjach kultury.

Część merytoryczna

Zaproponowana checklista, której punkty odnieść można do zasobów, kompetencji i doświadczeń własnej instytucji, ma być - według jej autorów - bezpośrednim wsparciem dla wdrażania podejścia “kolekcje jako dane” (collections as data):

Udostępnianie kolekcji cyfrowych zdatnych do wykorzystania obliczeniowego jest złożonym procesem. Przykłady opisywane w literaturze przedmiotu wykorzystują różne podejścia, co utrudnia przyjęcie i standaryzację tego procesu. Z tego powodu, wobec braku doświadczenia, wytycznych oraz dobrych praktyk, instytucje mogą mieć problemy z wdrażaniem koncepcji “kolekcje jako dane”.

Przygotowanie i udostępnienie danych według określonych zasad może wspierać ich późniejsze wykorzystanie, chociaż oczywiście go nie gwarantuje. Nie jest to też działanie bezkosztowe i wymaga poruszania się w wielu różnych przestrzeniach: od prawa autorskiego przez rozwiązania techniczne (informatyczne) aż do promocji.

Poniżej przedstawiam krótkie streszczenie jedenastu punktów checklisty.

1. Licencja gwarantująca wolność wykorzystania

Środowisko naukowe, ale też firmy, które chciałyby wykorzystać dane kultury, oczekują pewności, że mogą to zrobić legalnie i bez ryzyka związanego z prawami autorskimi. Z tego powodu do opisu statusu prawnoautorskiego publikowanych danych warto używać powszechnie rozpoznawanych narzędzi - wolnych licencji Creative Commons czy znaku Domeny Publicznej.

Oczekuje się, że zasady wykorzystania danych będą zezwalać również na użycie komercyjne. Rozwiązania prawne, dostępne w poszczególnych krajach, również mogą zostać wykorzystane w opisie statusu prawnoautorskiego. Przykładowo, w 2021 roku weszła w życie polska ustawa o ponownym wykorzystywaniu informacji sektora publicznego, która daje konkretne narzędzia wszystkim osobom i podmiotom, które chciałyby używać danych instytucji kultury i dziedzictwa.

2. Schemat cytowania i tekst naukowy

Podanie schematu cytowania danych, najlepiej zawierającego stały identyfikator (Digital Object Identifiers, DOI), a także opisanie danych i sposobu ich przygotowania w osobnym artykule naukowym, zwiększa wiarygodność zbioru.

3. Dokumentacja zbioru danych

Przygotowanie dokumentacji danych odgrywa kluczową rolę we wspieraniu ich wykorzystania. Dokumentacja w postaci artykułu, wpisu na blogu, samouczka czy pliku README umieszczonego w katalogu z plikami, zawierać może informacje o tym, w jaki sposób dane pozyskano i oczyszczono, jaka jest ich struktura i zakres oraz jak można z nich skorzystać.

4. Publikacja zbioru na dedykowanej platformie

Należy korzystać z popularnych i stabilnych platform (repozytoriów danych). To m.in. GitHub, Zenodo, Hugging Face czy DataCite, a w Polsce dodatkowo Repozytorium Otwartych Danych Badawczych i portal rządowy Otwarte Dane.

Repozytoria danych gwarantują stabilność dostępu do udostępnionych zbiorów i łatwość ich cytowania - część pozwala na wygenerowanie stabilnego identyfikatora (DOI). Repozytoria te umożliwiają także dodawanie kolejnych wersji tego samego zbioru wraz z zachowaniem historii wersji i automatycznie proponują sposób cytowania zbioru.

5. Dodatkowa dokumentacja: przykłady użycia

Dostępne są już rozwiązania, pozwalające na reprodukowanie w oknie przeglądarki procesu pracy z danymi. Użycie narzędzi takich jak Jupyter Notebooks pozwala pokazać w działaniu (na żywo) proces korzystania z danych, dzięki czemu ich struktura, zakres i wartość może być lepiej oceniona przez potencjalnych odbiorców. Notebooki Jupytera umożliwiają interaktywne tworzenie, uruchamianie i dokumentowanie kodu w różnych językach programowania, takich jak Python czy R. Dzięki temu można łączyć kod, tekst, wykresy, tabele i wyniki obliczeń w jednym środowisku dostępnym w przeglądarce, co umożliwia podgląd danych i ułatwia ich eksplorację.

6. Odpowiednia struktura danych

Udostępniane dane powinny mieć spójną i przejrzystą strukturę, bez względu na to, jak bardzo zróżnicowane zasoby opisują (obrazy, mapy, metadane, teksty, multimedia). Można stosować pewne konwencje w nazywaniu folderów i plików oraz porządkować zbiór według formatów (np. w osobnym katalogu pliki XML, a w osobnym TXT), nazywać je identyfikatorami stosowanymi w katalogu zbiorów itp. Przykładowo, Biblioteka Narodowa w Luksemburgu udostępnia archiwalną prasę w folderach opisanych tytułem i datą wydania, w których znajdują się podfoldery zawierające pliki określonego rodzaju (skany, pliki PDF, teksty itp.).

W przypadku udostępniania z danymi wizerunków obiektów (skanów), dobrą praktyką jest przygotowanie w osobnym folderze także ich miniaturek.

7. Przygotowanie metadanych dostępnych maszynowo

Dane są interoperacyjne, jeśli różne systemy, aplikacje lub urządzenia mogą udostępniać je i wykorzystywać je w łatwy sposób, niezależnie od różnic w formatach czy standardach. Interoperacyjność danych pozwala na współpracę między platformami i zapewnia spójność i efektywność udostępniania, przetwarzania i interpretacji informacji.

Wykorzystanie interoperacyjnych metadanych w formacie czytelnym dla maszyn poprawia ich wyszukiwalność i ułatwia użycie, ponieważ dane mogą być bez trudu przetwarzane przez komputer. Metadane takie można przygotować i udostępniać dla całego zestawu w trakcie procesu deponowania danych w repozytoriach. Stosować warto powszechnie rozpoznawalne formaty takie jak Dublin Core, MARC, VoID czy DCAT.

8. Udostępnienie na platformach do kolektywnej edycji

Udostępnienie danych w systemach takich jak Wikidane otwiera je na możliwość wykorzystania i uzupełnienia. Warto rozważyć także podjęcie projektów crowdsourcingowych na platformach takich jak Galaxy Zoo, przy czym ich prowadzene wymaga odpowiednich zasobów (finansowanie, promocja, animacja społeczności).

9. Udostępnienie danych przez interfejs programistyczny

Interfejs programistyczny (API) to sposób na dotarcie do danych bez zbędnej warstwy estetycznej - na żądanie wysłane przez program serwer API odpowiada konkretnymi danymi, które następnie można pobrać i przetwarzać. Taki sposób udostępniania danych pozwala też na budowanie aplikacji, które na bieżąco pozyskiwać i przetwarzać mogą dane, w zależności od wyborów i czynności, jakie podejmie użytkownik.

Warto mieć świadomość, że interfejs programistyczny nie musi zwracać wyłącznie danych tekstowych, ale też np. pliki graficzne, tak jak w przypadku API Muzeum Wiktorii i Alberta w Wielkiej Brytanii.

10. Opublikowanie portalu udostępniającego dane

Stworzenie dedykowanej strony internetowej dla zestawu danych poprawia jego widoczność i dostarcza dodatkowych informacji o możliwościach jego ponownego wykorzystania. Na stronie można umieścić odnośniki do danych, wizualizacje przedstawiające ich strukturę i zawartość, dane kontaktowe czy opis zasad użycia. Przykładem takiej witryny jest strona informacyjna Chronicling America stworzona w witrynie Biblioteki Kongresu.

11. Opublikowanie zasad wykorzystania

Dokument opisujący zasady wykorzystania danych może mieć prostą strukturę. Warto umieścić w nim informacje o prawach autorskich, cytowaniu, sposobach zgłaszania błędów i uwag oraz inne informacje kluczowe z punktu widzenia użycia danych.

Podsumowanie

Warto sięgnąć do źródłowego opracowania, w którym przedstawiono także studia przypadku, dokumentujące sposoby udostępniania i wspierania użycia danych kultury.

Polskie instytucje kultury zainteresować się mogą finansowanym przez UE programem Cultural Heritage Cloud, portalem przygotowanym w ramach działań Europeany oraz aktualnościami na ten opracowywania i upowszechniania danych kulturowych.

Potencjał zbiorów reprodukcji cyfrowych (skanów) nie ogranicza się wyłącznie do ich (widocznej) treści. W opublikowanym w 2017 roku opracowaniu Biblioteki Kogresu na temat potencjału danych wypracowywanych z kolekcji cyfrowych, czytamy:

Szukanie wartości w kolekcji jako danych (collections as data) nie polega wyłącznie na zastanawianiu się, czy komputer może je przetwarzać, wizualizować i analizować. Perspektywa kolekcji jako danych to rozwijanie spojrzenia na zbiory, które wykracza poza powierzchnię obiektów obecnych w przestrzeni cyfrowej. Dokument Word to nie tylko dokument, strona internetowa to nie tylko projekcja na ekranie, a tweet to znacznie więcej niż 140 znaków (Thomas Padilla).