-
datasets/3
-
wiki_museums.csv -- text/csv -- ~1MB
Tabela zawiera kolumny: article_title, article_id (identyfikator hasła w Wikipedii), filename, nchar (liczba znaków) -
/articles -- text/plain -- 1MB
256 plików tekstowych zawierających treść artykułów
-
Opis
Zbiór zawiera treści 256 haseł z polskiej Wikipedii, poświęconych muzeom z Polski, USA, Francji, Holandii, Czech oraz Malty.
Do czego można wykorzystać te dane?
- analiza języka naturalnego
- rozpoznawanie jednostek nazwanych
- analizy korpusowe