Finnish Wikipedia 2017, source Suomenkielinen Wikipedia 2017, lähdemateriaali Short name / Lyhytnimi: wikipedia-fi-2017-src Persistent identifier / Aineiston pysyväistunniste: http://urn:nbn:fi:lb-2019110803 Access location / Sijainti: http://urn:nbn:fi:lb-2019110804 License / Lisenssi CC BY https://creativecommons.org/licenses/by/4.0/ The corpus contains all the Finnish articles from the online encyclopedia Wikipedia available in 1 January 2018. The text parts of the articles have been extracted from [Wikipedia Dumps](https://dumps.wikimedia.org/) with [WikiExtractor](https://github.com/attardi/wikiextractor). The corpus has been tokenized and annotated with morpho-syntactic analysis produced with the [Turku Dependency Parser](http://turkunlp.github.io/Finnish-dep-parser/) Size: 83,300,000 tokens Aineisto kattaa Wikipedian suomenkielisen artikkelien leipätekstit vuoden 2017 lopulta (1.1.2018). Tekstit on eristetty Wikipedian tarjoamista kielikohtaisista kokonaisaineistoista (https://dumps.wikimedia.org/). Aineisto on jaettu arikkeleihin, kappaleisiin ja lauseisiin. Lauseet on morfosyntaktisesti jäsennetty käyttäen Turku BioNLP -ryhmän kehittämää dependenssijäsennintä (http://turkunlp.github.io/Finnish-dep-parser/). Koko 83 300 000 sanetta