
Wprowadzenie
W poprzedniej lekcji poznaliśmy podstawy teoretyczne analizy sieciowej oraz interfejs Gephi. Pracujemy na danych na temat blurbów, publikowanych dla książek z wydawnictwa Czarne.
Wcześniej przygotowane dane dostępne są już na stronach humanistyka.dev.
Cele lekcji
Celem lekcji jest poznanie podstaw analizy sieciowej i korzystania z programu Gephi.
Efekty
Efektem lekcji będą wizualizacje sieci relacji między osobami piszącymi blurby a autorami i autorami książek wydawnictwa Czarne. Dopracujemy wygląd wizualizacji oraz zidentyfikujemy kluczowe węzły, relacje i klastry.
Wymagania
Korzystamy z darmowego programu Gephi.
Część merytoryczna
Naszą lekcję podzielimy na dwie części: najpierw spróbujemy zidentyfikować, wyświetlić i zinterpretować klastry w ramach naszej sieci, a potem przygotujemy wizualizację do publikacji.
Wykrywanie klastrów w Gephi
Klaster w analizie sieciowej to grupa węzłów (np. osób, obiektów, stron internetowych) w sieci, które są ze sobą silniej powiązane niż z węzłami spoza tej grupy. Węzły wewnątrz klastra mają więcej wzajemnych połączeń między sobą niż z innymi węzłami w sieci. W kontekście naszych danych klastrami będą grupy autorów i autorek, których członkowie najsilniej polecają się sobie nawzajem.
W Gephi korzystać możemy z automatycznego wyliczania miary modularności sieci (modularity). To miara, która pokazuje, jak bardzo sieć może być podzielona na grupy węzłów (społeczności lub klastry), które mają więcej połączeń między sobą niż z węzłami w innych grupach. W ten sposób możemy identyfikować klastry i oceniać to, jak bardzo zdystansowane są od reszty sieci.
W module Statistics w części Community Detection wybieramy opcję Modularity:
Oprogramowanie wyznaczyło aż 142 klastry, wśród których większa część składa się z jednego lub kilku węzłów, ale istnieją także bardzo obszerne klastry, zawierające tych węzłów kilkadziesiąt lub nawet kilkaset.
Wartość modularity wynosi 0.766 (a więc jest stosunkowo wysoka), co oznacza, że istnieją bliskie i silne relacje między węzłami w tym samym klastrze i niewiele połączeń do węzłów w innych klastrach. Do wyznaczania tej miary Gephi używa metody Louvain.
Po wyliczeniu modularności, w danych na temat węzłów, dostępnych w panelu Data laboratory znajdziemy nową kolumnę: Modularity Class. Każdy węzeł naszej sieci został przypisany do określonego klastru. Mając takie dane, możemy spróbować pokazać je na wizualizacji.
Kolorowanie i filtrowanie klastrów
W panelu Appearance możemy zmieniać wygląd węzłów i krawędzi. Wygląd może być ustalony autorytatywnie (np. decydujemy, że wszystkie punkty oznaczające węzły są koloru zielonego), ale też generowany na podstawie określonych cech węzłów czy krawędzi.
Wybierzmy opcję Nodes - Partition i jako podstawę nakładania kolorów na węzły ustawmy Modularity Class:
Na naszej wizualizacji pojawiły się kolory wyznaczające klastry (możemy dowolnie zmieniać paletę). Spróbujmy skoncentrować się na jednym klastrze. Najwięcej węzłów (aż 8.4 proc.) znajduje się w klastrze 24. Spróbujmy dowiedzieć się o nim czegoś więcej.
Po prawej stronie okna Gephi znajduje się panel Statistics i Filters. Wybierzmy filtry, a w nich filtry bazujące na atrybutach węzłów.
Aby użyć filtra Partition - Modularity Class, przenosimy go myszą na pole Queries i wybieramy wartość, która nas interesuje (chcemy zobaczyć klaster o klasie 24). Możemy też zmienić algorytm layoutu na Yifan Hu Proportional, żeby klaster czytelniej się prezentował:
Jeśli otworzymy teraz zakładkę Data Laboratory, zobaczymy, że dane o węzłach i krawędziach zawierają wyłącznie elementy z klastra 24, a najbardziej aktywnymi dostarczycielami blurbów są w nim “New Yorker” i “New York Times”. To już jakiś trop, który może zasugerować nam, jakiego rodzaju książki są promowane w tym klastrze. Rzut oka na dane dotyczące krawędzi w tym klastrze pozwala szybko stwierdzić, że dominują w nim książki autorów zagranicznych.
Spróbujmy wyznaczyć jeszcze najbardziej aktywnych twórców blurbów w tym klastrze. Aby to zrobić, skorzystajmy z miary Out-Degree, która zlicza połączenia wychodzące od węzła. W ustawieniach wyglądu węzła wybieramy ikonę z okręgami (Size) i ustawiamy jej wartość na podstawie liczby połączeń wychodzących:
Dzięki temu możemy szybciej zidentyfikować na wizualizacji najważniejsze węzły.
Przygotowywanie i udostępnienie wizualizacji
Mając przygotowane dane klastra, możemy wygenerować jego wizualizację. Przechodzimy do zakładki Preview. To miejsce, gdzie przygotowujemy ostateczną wersję wizualizacji.
Moduł Preview udostępnia wiele opcji, które wpływają na kształt wizualizacji. Możemy ustawić tu m.in.:
- rodzaj wizualizacji połączenia (linia prosta bądź krzywa);
- rozmiary opisów węzłów i krawędzi (proporcjonalne do wybranej wartości lub stałe);
- obecność i rozmiar strzałki (ważnej w sieciach, w których liczy się kierunek przepływu);
- ustawienia kolorów, fontów itp.
Trudno się nie zgodzić, że taka postać wizualizacji nie spełnia podstawowych warunków: jest nieczytelna, chaotyczna, nie mówi za wiele o relacjach między węzłami. Rozwiązania mogą być dwa. Albo przygotowujemy wizualizację pokazującą szerszą perspektywę (np. wyodrębnione klastry w całej sieci) i np. w artykule naukowym czy konferencji opisujemy cechy sieci, podając wybrane dane z Data Laboratory, albo generujemy plik GEXF i pozwalamy naszym odbiorcom samodzielnie przeglądać klaster w aplikacji Gephi Light. Wizualizacje sieciowe mogą wyglądać bardzo atrakcyjnie, ale bez odpowiedniego kontekstu czasem trudno je zrozumieć i zinterpretować.
Aby wygenerować plik GEXF, wybieramy z menu Plik opcję Export - Graph file (zaznaczamy też opcję eksportu wyłącznie widocznej, przefiltrowanej sieci):
Taki plik wystarczy na warsztatach czy prezentacji wczytać do Gephi Light i można samodzielnie analizować relacje między węzłami. Gephi Light również udostępnia zestaw narzędzi i filtrów, np. taki, który pozwala szybko podejrzeć, jaki typ węzłów dominuje w analizowanym przez nas klastrze 24:
W tej części sieci blurbów wydawnictwa Czarne autorzy i autorki książek, którzy jednocześnie nie polecają żadnej innej książki, to jedynie 19 proc. węzłów. Są wśród nich gwiazdy osoby takie jak patti Smith, której książki polecają dwadzieścia dwie osoby. Charlie LeDuff, który - będąc polecany w jedenastu blurbach, jest autorem tylko jednego.
Być może wartość danej osoby na rynku książki możnaby mierzyć relacją między liczbą otrzymanych i napisanych przez nią blurbów, ale na pewno nie może być to proste wyliczenie, w którym wartość zwiększa liczba otrzymanych rekomendacji i obniża liczba rekomendacji napisanych. Blurb pisany do książki noblistki będzie przecież znaczył więcej niż kilkanaście blurbów otrzymanych od autorów recenzji i omówień z blogów literackich czy bookstagrama.
Problemy interpretacyjne
Rzut oka na dane dotyczące węzłów pozwala zobaczyć, że najczęściej polecaną osobą w katalogu Czarnego jest Herta Müller (autorka siedmiu książek wydanych w tym wydawnictwie), równocześnie autorka tylko jednego blurba. Drugi na tej liście Andrzej Stasiuk, polecany w trzydziestu dwóch blurbach i polecający szesnaście książek.
Jeżeli uznamy sieć blurbów za pewną repezentację systemu pola literackiego, to węzły najbardziej kluczowe w tej sieci mogą być interpretowane jako szczególnie istotne. Znaczenie takich osób dla sieci trudno jednak opierać wyłącznie na liczbie napisanych blurbów czy liczbie poleceń, które dana osoba otrzymała dla swoich książek.
Aby spróbować zbadać to w inny sposób, możemy użyć miary centralności bliskości - betweenes centrality. Im wyższa ta miara, tym większe znaczenie dla połączeń w całej sieci ma dany węzeł.
Aby wyliczyć tę miarę, z panelu Statistics wybieramy Network Diameter (wyliczanie średnicy sieci). Po przeliczeniu sieci, w tablicy danych znajdziemy miarę Betweenness centrality: centralnym węzłem dla całej sieci jest Andrzej Stasiuk:
Jednak co to tak naprawdę znaczy? Wartość centralności bliskości opisuje, jak często dany węzeł (czyli punkt lub element w sieci) występuje na najkrótszych ścieżkach pomiędzy innymi parami węzłów. W sieci telekomunikacyjnej węzeł o wyższej wartości tego typu będzie miał większą kontrolę nad siecią, ponieważ więcej informacji będzie przechodzić przez niego. Czy możemy uznać, że podobną rolę w systemie blurbów pełnią wyróżnieni wyżej autorzy i autorki? Jakie znaczenie dla tak wysokiej pozycji Stasiuka w sieci ma fakt, że jest założycielem wydawnictwa i popularnym autorem? Sama sieć i jej miary statystyczne nie wystarczą do przygotowania pełnej interpretacji - tę powinniśmy wypracować także z wykorzystaniem informacji spoza sieci.
Podsumowanie
Wizualizacje sieciowe mogą być pomocne w opisaniu i zinterpretowaniu jakiejś społeczności czy mechanizmów relacji. Niestety sama wizualizacja zazwyczaj nie wystarczy - należy zapewnić dla niej odpowiedni kontekst i wskazać, w jaki sposób została wyliczona. Od samych wizualizacji ciekawsze są miary statystyczne - choćby łatwo wyliczane liczby wychodzących czy wchodzących połączeń albo wartość centralności bliskości. Gephi pozwala nie tylko tworzyć kolorowe i atrakcyjne grafy, ale też łatwo filtrować dane o węzłach i połączeniach, wyliczać statystyki i wyodrębniać klastry. Praca z danymi w tym programie może być nawet ciekawsza i ważniejsza niż żmudne zajmowanie się kolorami i układem wizualizacji.
Wykorzystanie metod
Analizę sieciową i Gephi wykorzystać można do badań odbiorców muzeów. Ciekawym przykładem jest opracowanie, opublikowane w ramach konferencji Museums and the Web w 2015 roku. Alex Espinós zanalizował interakcje użytkowników Twittera, którzy obserwowali konta trzech muzeów z Londynu, Turynu i Barcelony.
Nie tylko relacje między odbiorcami a muzeami można badać metodami analizy sieciowej - także, np. na platformach społecznościowych, muzea wchodzą ze sobą w pewne relacje. Zbadano je (w odniesieniu do 51 najpopularniejszych globalnie muzeów, posiadających konto na Instagramie) w 2019 roku: za pomocą miar centralności zidentyfikowano też te najbardziej znaczące węzły w sieci muzealnej: British Museum, MOMA i Luwr.
Pomysł na warsztat
Warsztat wprowadzający do analizy sieciowej może polegać na badaniu powiązań między lokalnymi instytucjami kultury, bazując na tym, że współorganizują wydarzenia, występują jako patroni lub wspominają o innych instytucjach na swoich stronach. Czy współpraca między nimi wynika z podobnej misji i tematyki, czy może decydująca jest jedynie lokalizacja? Podstawą takiego warsztatu musi być oczywiście zebranie danych, a przy rozpoznawaniu dominujących węzłów warto wziąć pod uwagę nieoczywiste uwarunkowania, wpływające na kształt sieci: może w grę wchodzą także relacje personalne lub czynniki polityczne?