Subskrybuj newsletter o cyfrowej humanistyce i innowacjach w sektorze kultury

Wikipedia: hasła o muzeach

  • datasets/3
    • wiki_museums.csv -- text/csv -- ~1MB
      Tabela zawiera kolumny: article_title, article_id (identyfikator hasła w Wikipedii), filename, nchar (liczba znaków)
    • /articles -- text/plain -- 1MB
      256 plików tekstowych zawierających treść artykułów

Opis

Zbiór zawiera treści 256 haseł z polskiej Wikipedii, poświęconych muzeom z Polski, USA, Francji, Holandii, Czech oraz Malty.

Do czego można wykorzystać te dane?

  • analiza języka naturalnego
  • rozpoznawanie jednostek nazwanych
  • analizy korpusowe