Subskrybuj newsletter o cyfrowej humanistyce i innowacjach w sektorze kultury

Wikipedia: hasła poświęcone historii Polski

  • datasets/5
    • wiki_polish_history.csv -- text/csv -- ~1MB
      Tabela zawiera kolumny: article_title, article_id (identyfikator hasła w Wikipedii), filename, nchar (liczba znaków)
    • articles.zip -- application/zip -- 5MB
      Plik archiwum zawierający 526 plików tekstowych z treściami artykułów
    • /articles -- text/plain -- 12MB
      526 plików tekstowych zawierających treści artykułów

Opis

Zbiór zawiera treści 526 haseł z polskiej Wikipedii, poświęconych historii Polski (hasło Historia_Polski oraz hasła linkowane z tej strony).

Do czego można wykorzystać te dane?

  • analiza języka naturalnego
  • rozpoznawanie jednostek nazwanych
  • analizy korpusowe