spaCy/spacy/sv/tokenizer_exceptions.py

77 lines
909 B
Python
Raw Normal View History

2016-12-23 00:45:18 +03:00
# encoding: utf8
from __future__ import unicode_literals
from ..symbols import *
from ..language_data import PRON_LEMMA
TOKENIZER_EXCEPTIONS = {
}
ORTH_ONLY = [
"ang.",
"anm.",
"bil.",
"bl.a.",
"ca",
"cm",
"dl",
"dvs.",
"e.Kr.",
"el.",
"e.d.",
"eng.",
"etc.",
"exkl.",
"f.d.",
"fid.",
"f.Kr.",
"forts.",
"fr.o.m.",
"f.ö.",
"förf.",
"ha",
"hg",
"inkl.",
"i sht",
"i st",
"jmf",
"jur.",
"kcal",
"kg",
"kl.",
"km",
"kr.",
"l",
"lat.",
"m",
"m.a.o.",
"max.",
"m.fl.",
"min.",
"mm",
"m.m.",
"ngn",
"ngt",
"nr",
"obs.",
"o.d.",
"osv.",
"p.g.a.",
"ref.",
"resp.",
"s.",
"s.a.s.",
"s.k.",
"st.",
"s:t",
"t.ex.",
"t.o.m.",
"tfn",
"ung.",
"äv.",
"övers."
]