-
datasets/5
-
wiki_polish_history.csv -- text/csv -- ~1MB
Tabela zawiera kolumny: article_title, article_id (identyfikator hasła w Wikipedii), filename, nchar (liczba znaków) -
articles.zip -- application/zip -- 5MB
Plik archiwum zawierający 526 plików tekstowych z treściami artykułów -
/articles -- text/plain -- 12MB
526 plików tekstowych zawierających treści artykułów
-
Opis
Zbiór zawiera treści 526 haseł z polskiej Wikipedii, poświęconych historii Polski (hasło Historia_Polski oraz hasła linkowane z tej strony).
Do czego można wykorzystać te dane?
- analiza języka naturalnego
- rozpoznawanie jednostek nazwanych
- analizy korpusowe