Eksterne korpus

Persisk-korpus

Vitenskapelige databaser som dokumenterer Persisk og dets dialekter. Hvert kort åpner korpuset i en ny fane.

Korpus
UD Persian Seraji Treebank
Universal Dependencies treebank for Iranian Persian (~6,000 sentences, 152k tokens) converted from the Uppsala Persian Dependency Treebank (Uppsala University / Universal Dependencies).
Dialekter
- Farsi
Korpus
CHILDES — Family Persian Corpus
Audio + transcripts of two Tehran-Persian children recorded for L1 acquisition research (TalkBank / Carnegie Mellon).
Dialekter
- Farsi
Korpus
Tajik National Corpus
58.4-million-word annotated corpus of Tajik with English and Russian glosses (Russian-Tajik Slavic University).
Dialekter
- Tadsjikisk
Korpus
Normalized Bijankhan Corpus
Normalized release of the Bijankhan Persian POS-tagged news corpus (~2.6M tokens) from the Database Research Group, University of Tehran (Tihu NLP / University of Tehran).
Dialekter
- Farsi
Ordbok
Living Dictionary — Hazaragi
Community-built dictionary of Hazaragi, the Persian variety spoken by the Hazara of Afghanistan, with audio recordings and Arabic-script orthography (Living Tongues Institute for Endangered Languages).
Dialekter
- Hazaragi

Utforsk etter dialekt

Persisk-korpus — Vitenskapelige databaser — Dialect Atlas