Subskrybuj newsletter o cyfrowej humanistyce i innowacjach w sektorze kultury

O czym opowiada Muzeum Historii Polski na YouTube? Pobieramy i analizujemy dane (część I)

Okładka lekcji: koty w historycznych stronach na filmach na YouTube / Źródło: AI

Wprowadzenie

YouTube to nie tylko platforma wideo, ale też serwis społecznościowy, w którym odbiorcy wchodzą w interakcje z publikowanymi treściami. Pełni ważną rolę w działaniach edukacyjnych i upowszechnianiu zbiorów instytucji kultury. W czasie pandemii COVID YouTube było jednym z fundamentów działalności muzeów i, jak pisze Magdalena Pasternak-Zabielska, najczęściej wykorzystywanym kanałem ich komunikacji z odbiorcami.

Treści dostępne na YouTube mogą być przedmiotem badań. Liczba dostępnych filmów, opisów i komentarzy może powodować, że nie da się ich skutecznie badać przez dokładne i bezpośrednie zapoznanie się z treścią (close reading). Na szczęście YouTube udostępnia interfejs maszynowy (API), które pozwala pozyskać interesujące dane i analizować je poprzez czytanie zdystansowane.

Korzystanie z API wymaga zazwyczaj pracy w którymś z języków programowania, tak aby samodzielnie pisać narzędzia pobierające i przetwarzające dane. Na szczęście nie zawsze jest to konieczne. W tej i następnej lekcji pracować będziemy bez programowania, korzystając z narzędzi opracowanych na Uniwersytecie Amsterdamskim (pobieranie danych z YouTube) i w polskim konsorcjum naukowym CLARIN-PL (przetwarzanie języka naturalnego).

Cele lekcji

Celem lekcji jest poznanie podstaw korzystania z danych YouTube za pomocą narzędzi YouTube Data Tools oraz wprowadzenie do narzędzi CLARIN-PL do wyodrębniania tematów i słów kluczowych w tekstach w języku polskim. Podczas pierwszej lekcji z cyklu będziemy pracować z datami publikacji poszczególnych filmów na kanale MHP.

Efekty

Efektem naszej pracy z obu lekcji będzie krótka charakterystyka aktywności Muzeum Historii Polski na YouTube, wypracowana na bazie analizy wybranych danych statystycznych i treści opisów filmów.

Wymagania

Do pracy w tej lekcji niezbędna jest przeglądarka internetowa, dostęp do arkusza kalkulacyjnego (dobrze sprawdzi się Google Sheets czy Excel) i podstawowe kompetencje w pracy z tabelami. Będziemy korzystać z opracowanych przez Bernharda Riedera narzędzi YouTube Data Tools.

Część merytoryczna

Skorzystanie z danych z YouTube (czy innej platformy społecznościowej) pozwala nam porównać ze sobą wyrażaną w dokumentach i opracowaniach deklarację misji danej instytucji kultury z jej faktycznymi aktywnościami. To cenny zasób - warto patrzeć na przestrzeń online także jak na potencjalny zbiór śladów i dowodów rzeczywistych praktyk badanych instytucji.

Zwróćmy uwagę, że YoTube Data Tools to oprogramowanie open source i możemy uruchomić je samodzielnie, co pozwala np. na regularne wykonywanie tych samych kwerend w określonych odstępach czasu. Przy samodzielnej instalacji potrzebujemy też autoryzacji w API Google.

Własna instancja YouTube Data Tools może być częścią infrastruktury do działań strażniczych albo przy badaniach planowanych na szerszą skalę.

Naszą pracę z profilem Muzeum Historii Polski na YouTube zaczniemy od sprawdzenia dynamiki publikowania filmów.

Pobieranie identyfikatora kanału

Profil Muzeum Historii Polski na YouTube obserwuje prawie 80 tys. osób, a poszczególne filmy oglądać może nawet większa liczba widzów. Spróbujmy pobrać dane na temat wszystkich filmów, które zostały opublikowane na tym kanale.

Muzeum Historii Polski na YouTube / Źródło: youtube.pl

Aby to zrobić, potrzebujemy identyfikatora kanału. Adres w postaci

https://www.youtube.com/@MuzeumHistoriiPolski

zawiera tzw. handle URL i nie będzie przydatny. Musimy dotrzeć do identyfikatora (ID) kanału, który tworzy adres w postaci:

youtube.com/channel/{NUMER_ID}

Aby to zrobić, klikamy …więcej tuż przy opisie kanału. Na ekranie pojawia się nowe okno, przewijamy je do dołu - znajdziemy tam opcję Udostępnij kanał i następnie Kopiuj identyfikator kanału:

Muzeum Historii Polski na YouTube - pobieranie identyfikatora kanału / Źródło: youtube.pl

Identyfikator kanału Muzeum Historii Polski to

UC5QCPXtNBwJ8b7fNsZ5OaaA

Pobieranie danych o filmach z kanału

Możemy przejść teraz do YouTube Data Tools i do modułu Video List:

YouTube Data Tools / Źródło: ytdt.digitalmethods.net

Identyfikator kanału jest kluczowym parametrem, który musimy wykorzystać, aby pobrać dane. Zwróćmy uwagę, że narzędzie pozwala też na pobieranie danych o filmach z playlisty oraz z wyników wyszukiwania (search query). Warto ostrożnie korzystać z tej ostatniej opcji, ponieważ na ostateczny kształt wyników wyszukiwania wpływ mają algorytmy YouTube i nie wiemy, czy i jak odpowiadają one na poprzednie wyszukiwania, wykonywane przez osoby korzystające z YouTube Data Tools.

Po podaniu identyfikatora kanału możemy kliknąć przycisk Prześlij i poczekać, aż dane zostaną zebrane:

YouTube Data Tools - pobieranie danych / Źródło: ytdt.digitalmethods.net

Dane zostaną pobrane do pliku CSV, zawierającego następujące kolumny:

position,channelId,channelTitle,videoId,publishedAt,publishedAtSQL,videoTitle,videoDescription,tags,videoCategoryId,videoCategoryLabel,topicCategories,duration,durationSec,dimension,definition,caption,defaultLanguage,defaultLAudioLanguage,thumbnail_maxres,licensedContent,locationDescription,latitude,longitude,viewCount,likeCount,dislikeCount,favoriteCount,commentCount

W danych znajdziemy takie elementy jak tytuł filmu, jego opis, tagi, kategorię, długość trwania, adres URL miniaturki oraz liczbę odsłoń, polubień i komentarzy.

Dynamika publikowania - przekształcanie danych

Zbadajmy jeden z podstawowych wymiarów publikowania filmów na kanale YouTube - ich rozkład w czasie. Muzeum Historii Polski zostało powołane w 2006 roku. Pierwszy film, którego dane pozyskaliśmy, został opublikowany w czerwcu 2009 roku, najnowszy - 16 października tego roku.

Aby sprawdzić ten rozkład, spróbujmy skorzystać z wartości w kolumnie publishedAt:

2024-10-16T13:00:19Z
2024-10-09T13:00:29Z
2024-10-02T13:00:05Z
2024-09-25T13:00:02Z
2024-09-18T13:01:00Z
2024-09-11T13:00:04Z
2024-09-04T13:00:47Z
2024-08-28T13:00:20Z
2024-08-21T13:01:02Z
2024-08-14T13:00:48Z
...

Nie będziemy w tej lekcji programować, ale w jakiś sposób musimy przetworzyć dane. Spróbujmy zaimportować plik CSV do Google Sheets (Google Drive). Tworzymy nowy dokument - Arkusz Google i za pomocą opcji Plik - Importuj umieszczamy nasze dane w arkuszu. Importując, nie musimy wybierać opcji automatycznej konwersji danych (liczb i dat).

Dane o kanale MHP w Google Sheets / Źródło: docs.google.com/spreadsheets/

Aby nasz wykres miał sens, musimy ograniczyć szczegółowość danych w kolumnie publishedAt: dane w postaci pełnych timestampów przekształćmy na ciągi tekstowe w schemacie RRRR-MM. Jak to zrobić?

Skopiujmy kolumnę publishedAt do nowego arkusza i użyjmy funkcji, która utnie i odrzuci wszystkie znaki ze źródłowej kolumny po 7 znaku:

=LEFT(A2;7)

Standardowo funkcję wpisujemy w pierwszej komórce z wartościami:

Wypisywanie funkcji / Źródło: docs.google.com/spreadsheets/

Aplikacja Google Sheets zapyta nas, czy chcemy użyć tej funkcji na wszystkie wypełnione komórki w kolumnie A1. Oczywiście chcemy to zrobić:

Wypisywanie funkcji / Źródło: docs.google.com/spreadsheets/

Nazwijmy naszą nową kolumnę publishedYearMonth.

Dynamika publikowania - tabela przestawna

W Excelu czy Google Sheets tabele przestawne pozwalają na łatwe zawężanie dużych zbiorów danych. W naszym przypadku zawężenie danych o latach i miesiącach publikacji będzie polegało na policzeniu, ile obserwacji (a więc filmów) publikowano w danym miesiącu danego roku. Wyodrębnimy więc z kolumny wszystkie unikalne wartości RRRR-MM i policzymy, ile razy występują.

Zaznaczamy kolumnę publishedYearMonth i wybieramy z menu Wstaw - Tabela przestawna. Tworzymy ją w nowym arkuszu.

Tabela przestawna - ustawienia / Źródło: docs.google.com/spreadsheets/

Tak przetworzone dane możemy w prosty sposób zwizualizować na wykresie liniowym. Zaznaczamy wartości w pierwszej i drugiej kolumnie i wybieramy z menu Wstaw - Wykres.

Aktywność MHP na YouTube - wykres / Źródło: docs.google.com/spreadsheets/

Wykres nie jest najlepszej jakości, ale dzięki niemu możemy dokonać kilku ciekawych obserwacji. Po pierwsze, konto MHP na YouTube przez wiele lat (2009-2019) było właściwie nieaktywne, publikowano tam jeden-trzy filmy co kilka miesięcy - warto odnieść to do statusu samej instytucji, która wówczas wciąż nie miała zabezpieczonego funkcjonowania. Po drugie, wzrost liczby filmów łączy się najpewniej z kolejnymi ogłaszanymi w Polsce lockdownami związanymi z pandemią COVID (I lockdown - marzec 2020, II lockdown - listopad 2020, III lockdown od 15 marca 2021). Po trzecie, od wakacji 2022 roku można zauważyć pewien trend – liczba publikowanych filmów utrzymuje się na mniej więcej stałym poziomie, co może sugerować, że muzeum rozpoczęło regularne udostępnianie materiałów wideo, już nie w trybie interwencyjnym, lecz w ramach własnego programu edukacyjnego.

Korekta wykresu

Zwróćmy uwagę na dużą wadę naszego wykresu - podaliśmy wyłącznie te daty miesięczne, w których opublikowano przynajmniej jeden film. Oznacza to, że wiele dat na osi X w ogóle się nie pojawiło. Do tego minimalna wartość osi Y nie schodzi tam do 0, więc osoby korzystające z wykresu mogą uznać, że przez cały badany okres MHP publikowało przynajmniej jeden film w miesiącu. Nie bardzo lubię wykresy i niespecjalnie im ufam 😔.

Jeśli chcielibyśmy przygotować poprawną oś czasu, zamieńmy opis czasowy z RRRR-MM na RRRR.

Aby uzyskać te dane, używamy funkcji

=LEFT(A2;4)

i tabeli przestawnej. W efekcie otrzymujemy dane:

rok,liczba_filmow
2009,7
2010,3
2012,1
2013,4
2014,2
2015,2
2016,2
2017,3
2018,1
2019,10
2020,59
2021,100
2022,63
2023,50
2024,42

Widzimy teraz, że w 2011 roku MHP nie publikowało żadnego filmu. Dodajmy rok 2011 do naszej tabeli, aby uzupełnić dane roczne.

rok,liczba_filmow
2009,7
2010,3
2011,0
2012,1
2013,4
2014,2
2015,2
2016,2
2017,3
2018,1
2019,10
2020,59
2021,100
2022,63
2023,50
2024,42

Możemy teraz wygenerować poprawniejszy wykres:

Aktywność MHP na YouTube - wykres / Źródło: docs.google.com/spreadsheets/

Wykres jest teraz na pewno bardziej czytelny, ale formatując dane straciliśmy pewne informacje. Ponieważ zbieramy liczbę filmów w wymiarze rocznym a nie miesięcznym, nie możemy dostrzec (co jednak pokazuje poprzedni wykres), że od połowy 2022 roku filmy publikowane są na kanale MHP mniej więcej regularnie i w podobnej liczbie.

Z drugiej strony wykres z danych w ujęciu rocznym pokazuje dobrze koniec efektu pandemii w publikowaniu Muzeum Historii Polski na YouTube (po 2022 roku).

Podsumowanie

YouTube Data Tools to przeglądarkowe narzędzie, które pozwala na łatwe pobieranie danych z platformy YouTube. Udostępnia dane surowe, więc to do nas należy ich przetworzenie i interpretacja.

Korzystając z niego, warto zwrócić uwagę na potencjalne ograniczenia i stronniczość oprogramowania, szczególnie, jeśli chcemy użyć metody pobierania danych z wyników wyszukiwania. Nie wiemy, czy nie są one profilowane przez poprzednie wyszukiwania za pomocą tego narzędzia.

Osobną sprawą jest status prawnoautorski tych danych - czy możemy uznać, że znajdują się w domenie publicznej?

Warto zainteresować się także alternatywnym do YDT oprogramowaniem chmurowym - Communalytic.

Wykorzystanie metod

Jednym z kluczowych powodów braku badań nad YouTube może być ograniczona dostępność narzędzi do zbierania i analizy danych z tej platformy. Większość badań wykorzystujących dane z YouTube była prowadzona ręcznie, co ostatecznie ograniczało wielkość próby.

piszą autorzy opracowania Researching YouTube: Methods, Tools, and Analytics (2022). YouTube Data Tools pozwala zwiększyć zakres badania bez konieczności jakiejkolwiek pracy programistycznej.

Autorzy przywołują badania wykorzystujące YDT: gromadzenie danych o filmach na temat chorób przewlekłych, wiadomości i informacji na temat pandemii COVID-19 czy oraz komunikacji dotyczącej lokalnej i organicznej żywności.

Jednym z badań z wykorzystaniem YDT, bliższym naszym zainteresowaniom, jest opracowanie From archive cultures to ephemeral content, and back: Studying Instagram Stories with digital methods) (2020). Pozyskano tam zestaw danych prawie 12 tys. filmów opisanych jako Instagram Stories, co pozwoliło opisać praktyki samoarchiwizacji, stosowane przez użytkowników i użytkowniczki Instagrama.

Pomysł na warsztat

Ponieważ korzystanie z YouTube Data Tools nie wymaga programowania, a do podstawowego przejrzenia i analizy zebranych danych wystarczy Excel albo Google Sheets, można używać tego narzędzia w warsztatach z podstaw pracy z danymi mediów społecznościowych jako łatwego w użyciu źródła danych ćwiczeniowych.