
Wprowadzenie
YouTube to nie tylko platforma wideo, ale też serwis społecznościowy, w którym odbiorcy wchodzą w interakcje z publikowanymi treściami. Pełni ważną rolę w działaniach edukacyjnych i upowszechnianiu zbiorów instytucji kultury. W czasie pandemii COVID YouTube było jednym z fundamentów działalności muzeów i, jak pisze Magdalena Pasternak-Zabielska, najczęściej wykorzystywanym kanałem ich komunikacji z odbiorcami.
Treści dostępne na YouTube mogą być przedmiotem badań. Liczba dostępnych filmów, opisów i komentarzy może powodować, że nie da się ich skutecznie badać przez dokładne i bezpośrednie zapoznanie się z treścią (close reading). Na szczęście YouTube udostępnia interfejs maszynowy (API), które pozwala pozyskać interesujące dane i analizować je poprzez czytanie zdystansowane.
Korzystanie z API wymaga zazwyczaj pracy w którymś z języków programowania, tak aby samodzielnie pisać narzędzia pobierające i przetwarzające dane. Na szczęście nie zawsze jest to konieczne. W tej i następnej lekcji pracować będziemy bez programowania, korzystając z narzędzi opracowanych na Uniwersytecie Amsterdamskim (pobieranie danych z YouTube) i w polskim konsorcjum naukowym CLARIN-PL (przetwarzanie języka naturalnego).
Cele lekcji
Celem lekcji jest poznanie podstaw korzystania z danych YouTube za pomocą narzędzi YouTube Data Tools oraz wprowadzenie do narzędzi CLARIN-PL do wyodrębniania tematów i słów kluczowych w tekstach w języku polskim. Podczas pierwszej lekcji z cyklu będziemy pracować z datami publikacji poszczególnych filmów na kanale MHP.
Efekty
Efektem naszej pracy z obu lekcji będzie krótka charakterystyka aktywności Muzeum Historii Polski na YouTube, wypracowana na bazie analizy wybranych danych statystycznych i treści opisów filmów.
Wymagania
Do pracy w tej lekcji niezbędna jest przeglądarka internetowa, dostęp do arkusza kalkulacyjnego (dobrze sprawdzi się Google Sheets czy Excel) i podstawowe kompetencje w pracy z tabelami. Będziemy korzystać z opracowanych przez Bernharda Riedera narzędzi YouTube Data Tools.
Część merytoryczna
Skorzystanie z danych z YouTube (czy innej platformy społecznościowej) pozwala nam porównać ze sobą wyrażaną w dokumentach i opracowaniach deklarację misji danej instytucji kultury z jej faktycznymi aktywnościami. To cenny zasób - warto patrzeć na przestrzeń online także jak na potencjalny zbiór śladów i dowodów rzeczywistych praktyk badanych instytucji.
Zwróćmy uwagę, że YoTube Data Tools to oprogramowanie open source i możemy uruchomić je samodzielnie, co pozwala np. na regularne wykonywanie tych samych kwerend w określonych odstępach czasu. Przy samodzielnej instalacji potrzebujemy też autoryzacji w API Google.
Własna instancja YouTube Data Tools może być częścią infrastruktury do działań strażniczych albo przy badaniach planowanych na szerszą skalę.
Naszą pracę z profilem Muzeum Historii Polski na YouTube zaczniemy od sprawdzenia dynamiki publikowania filmów.
Pobieranie identyfikatora kanału
Profil Muzeum Historii Polski na YouTube obserwuje prawie 80 tys. osób, a poszczególne filmy oglądać może nawet większa liczba widzów. Spróbujmy pobrać dane na temat wszystkich filmów, które zostały opublikowane na tym kanale.
Aby to zrobić, potrzebujemy identyfikatora kanału. Adres w postaci
https://www.youtube.com/@MuzeumHistoriiPolski
zawiera tzw. handle URL i nie będzie przydatny. Musimy dotrzeć do identyfikatora (ID) kanału, który tworzy adres w postaci:
youtube.com/channel/{NUMER_ID}
Aby to zrobić, klikamy …więcej tuż przy opisie kanału. Na ekranie pojawia się nowe okno, przewijamy je do dołu - znajdziemy tam opcję Udostępnij kanał i następnie Kopiuj identyfikator kanału:
Identyfikator kanału Muzeum Historii Polski to
UC5QCPXtNBwJ8b7fNsZ5OaaA
Pobieranie danych o filmach z kanału
Możemy przejść teraz do YouTube Data Tools i do modułu Video List:
Identyfikator kanału jest kluczowym parametrem, który musimy wykorzystać, aby pobrać dane. Zwróćmy uwagę, że narzędzie pozwala też na pobieranie danych o filmach z playlisty oraz z wyników wyszukiwania (search query). Warto ostrożnie korzystać z tej ostatniej opcji, ponieważ na ostateczny kształt wyników wyszukiwania wpływ mają algorytmy YouTube i nie wiemy, czy i jak odpowiadają one na poprzednie wyszukiwania, wykonywane przez osoby korzystające z YouTube Data Tools.
Po podaniu identyfikatora kanału możemy kliknąć przycisk Prześlij i poczekać, aż dane zostaną zebrane:
Dane zostaną pobrane do pliku CSV, zawierającego następujące kolumny:
position,channelId,channelTitle,videoId,publishedAt,publishedAtSQL,videoTitle,videoDescription,tags,videoCategoryId,videoCategoryLabel,topicCategories,duration,durationSec,dimension,definition,caption,defaultLanguage,defaultLAudioLanguage,thumbnail_maxres,licensedContent,locationDescription,latitude,longitude,viewCount,likeCount,dislikeCount,favoriteCount,commentCount
W danych znajdziemy takie elementy jak tytuł filmu, jego opis, tagi, kategorię, długość trwania, adres URL miniaturki oraz liczbę odsłoń, polubień i komentarzy.
Dynamika publikowania - przekształcanie danych
Zbadajmy jeden z podstawowych wymiarów publikowania filmów na kanale YouTube - ich rozkład w czasie. Muzeum Historii Polski zostało powołane w 2006 roku. Pierwszy film, którego dane pozyskaliśmy, został opublikowany w czerwcu 2009 roku, najnowszy - 16 października tego roku.
Aby sprawdzić ten rozkład, spróbujmy skorzystać z wartości w kolumnie publishedAt:
2024-10-16T13:00:19Z
2024-10-09T13:00:29Z
2024-10-02T13:00:05Z
2024-09-25T13:00:02Z
2024-09-18T13:01:00Z
2024-09-11T13:00:04Z
2024-09-04T13:00:47Z
2024-08-28T13:00:20Z
2024-08-21T13:01:02Z
2024-08-14T13:00:48Z
...
Nie będziemy w tej lekcji programować, ale w jakiś sposób musimy przetworzyć dane. Spróbujmy zaimportować plik CSV do Google Sheets (Google Drive). Tworzymy nowy dokument - Arkusz Google i za pomocą opcji Plik - Importuj umieszczamy nasze dane w arkuszu. Importując, nie musimy wybierać opcji automatycznej konwersji danych (liczb i dat).
Aby nasz wykres miał sens, musimy ograniczyć szczegółowość danych w kolumnie publishedAt: dane w postaci pełnych timestampów przekształćmy na ciągi tekstowe w schemacie RRRR-MM. Jak to zrobić?
Skopiujmy kolumnę publishedAt do nowego arkusza i użyjmy funkcji, która utnie i odrzuci wszystkie znaki ze źródłowej kolumny po 7 znaku:
=LEFT(A2;7)
Standardowo funkcję wpisujemy w pierwszej komórce z wartościami:
Aplikacja Google Sheets zapyta nas, czy chcemy użyć tej funkcji na wszystkie wypełnione komórki w kolumnie A1. Oczywiście chcemy to zrobić:
Nazwijmy naszą nową kolumnę publishedYearMonth.
Dynamika publikowania - tabela przestawna
W Excelu czy Google Sheets tabele przestawne pozwalają na łatwe zawężanie dużych zbiorów danych. W naszym przypadku zawężenie danych o latach i miesiącach publikacji będzie polegało na policzeniu, ile obserwacji (a więc filmów) publikowano w danym miesiącu danego roku. Wyodrębnimy więc z kolumny wszystkie unikalne wartości RRRR-MM i policzymy, ile razy występują.
Zaznaczamy kolumnę publishedYearMonth i wybieramy z menu Wstaw - Tabela przestawna. Tworzymy ją w nowym arkuszu.
Tak przetworzone dane możemy w prosty sposób zwizualizować na wykresie liniowym. Zaznaczamy wartości w pierwszej i drugiej kolumnie i wybieramy z menu Wstaw - Wykres.
Wykres nie jest najlepszej jakości, ale dzięki niemu możemy dokonać kilku ciekawych obserwacji. Po pierwsze, konto MHP na YouTube przez wiele lat (2009-2019) było właściwie nieaktywne, publikowano tam jeden-trzy filmy co kilka miesięcy - warto odnieść to do statusu samej instytucji, która wówczas wciąż nie miała zabezpieczonego funkcjonowania. Po drugie, wzrost liczby filmów łączy się najpewniej z kolejnymi ogłaszanymi w Polsce lockdownami związanymi z pandemią COVID (I lockdown - marzec 2020, II lockdown - listopad 2020, III lockdown od 15 marca 2021). Po trzecie, od wakacji 2022 roku można zauważyć pewien trend – liczba publikowanych filmów utrzymuje się na mniej więcej stałym poziomie, co może sugerować, że muzeum rozpoczęło regularne udostępnianie materiałów wideo, już nie w trybie interwencyjnym, lecz w ramach własnego programu edukacyjnego.
Korekta wykresu
Zwróćmy uwagę na dużą wadę naszego wykresu - podaliśmy wyłącznie te daty miesięczne, w których opublikowano przynajmniej jeden film. Oznacza to, że wiele dat na osi X w ogóle się nie pojawiło. Do tego minimalna wartość osi Y nie schodzi tam do 0, więc osoby korzystające z wykresu mogą uznać, że przez cały badany okres MHP publikowało przynajmniej jeden film w miesiącu. Nie bardzo lubię wykresy i niespecjalnie im ufam 😔.
Jeśli chcielibyśmy przygotować poprawną oś czasu, zamieńmy opis czasowy z RRRR-MM na RRRR.
Aby uzyskać te dane, używamy funkcji
=LEFT(A2;4)
i tabeli przestawnej. W efekcie otrzymujemy dane:
rok,liczba_filmow
2009,7
2010,3
2012,1
2013,4
2014,2
2015,2
2016,2
2017,3
2018,1
2019,10
2020,59
2021,100
2022,63
2023,50
2024,42
Widzimy teraz, że w 2011 roku MHP nie publikowało żadnego filmu. Dodajmy rok 2011 do naszej tabeli, aby uzupełnić dane roczne.
rok,liczba_filmow
2009,7
2010,3
2011,0
2012,1
2013,4
2014,2
2015,2
2016,2
2017,3
2018,1
2019,10
2020,59
2021,100
2022,63
2023,50
2024,42
Możemy teraz wygenerować poprawniejszy wykres:
Wykres jest teraz na pewno bardziej czytelny, ale formatując dane straciliśmy pewne informacje. Ponieważ zbieramy liczbę filmów w wymiarze rocznym a nie miesięcznym, nie możemy dostrzec (co jednak pokazuje poprzedni wykres), że od połowy 2022 roku filmy publikowane są na kanale MHP mniej więcej regularnie i w podobnej liczbie.
Z drugiej strony wykres z danych w ujęciu rocznym pokazuje dobrze koniec efektu pandemii w publikowaniu Muzeum Historii Polski na YouTube (po 2022 roku).
Podsumowanie
YouTube Data Tools to przeglądarkowe narzędzie, które pozwala na łatwe pobieranie danych z platformy YouTube. Udostępnia dane surowe, więc to do nas należy ich przetworzenie i interpretacja.
Korzystając z niego, warto zwrócić uwagę na potencjalne ograniczenia i stronniczość oprogramowania, szczególnie, jeśli chcemy użyć metody pobierania danych z wyników wyszukiwania. Nie wiemy, czy nie są one profilowane przez poprzednie wyszukiwania za pomocą tego narzędzia.
Osobną sprawą jest status prawnoautorski tych danych - czy możemy uznać, że znajdują się w domenie publicznej?
Warto zainteresować się także alternatywnym do YDT oprogramowaniem chmurowym - Communalytic.
Wykorzystanie metod
Jednym z kluczowych powodów braku badań nad YouTube może być ograniczona dostępność narzędzi do zbierania i analizy danych z tej platformy. Większość badań wykorzystujących dane z YouTube była prowadzona ręcznie, co ostatecznie ograniczało wielkość próby.
piszą autorzy opracowania Researching YouTube: Methods, Tools, and Analytics (2022). YouTube Data Tools pozwala zwiększyć zakres badania bez konieczności jakiejkolwiek pracy programistycznej.
Autorzy przywołują badania wykorzystujące YDT: gromadzenie danych o filmach na temat chorób przewlekłych, wiadomości i informacji na temat pandemii COVID-19 czy oraz komunikacji dotyczącej lokalnej i organicznej żywności.
Jednym z badań z wykorzystaniem YDT, bliższym naszym zainteresowaniom, jest opracowanie From archive cultures to ephemeral content, and back: Studying Instagram Stories with digital methods) (2020). Pozyskano tam zestaw danych prawie 12 tys. filmów opisanych jako Instagram Stories, co pozwoliło opisać praktyki samoarchiwizacji, stosowane przez użytkowników i użytkowniczki Instagrama.
Pomysł na warsztat
Ponieważ korzystanie z YouTube Data Tools nie wymaga programowania, a do podstawowego przejrzenia i analizy zebranych danych wystarczy Excel albo Google Sheets, można używać tego narzędzia w warsztatach z podstaw pracy z danymi mediów społecznościowych jako łatwego w użyciu źródła danych ćwiczeniowych.