spaCy/spacy/lang/pl/tokenizer_exceptions.py

# encoding: utf8
from __future__ import unicode_literals

from ...symbols import ORTH, LEMMA, POS, ADV, ADJ, NOUN


_exc = {}

for exc_data in [
    {ORTH: "m.in.", LEMMA: "między innymi", POS: ADV},
    {ORTH: "inż.", LEMMA: "inżynier", POS: NOUN},
    {ORTH: "mgr.", LEMMA: "magister", POS: NOUN},
    {ORTH: "tzn.", LEMMA: "to znaczy", POS: ADV},
    {ORTH: "tj.", LEMMA: "to jest", POS: ADV},
    {ORTH: "tzw.", LEMMA: "tak zwany", POS: ADJ}]:
    _exc[exc_data[ORTH]] = [exc_data]

for orth in [
    "w.", "r."]:
    _exc[orth] = [{ORTH: orth}]


TOKENIZER_EXCEPTIONS = _exc
a start 2017-06-27 00:40:04 +03:00			`# encoding: utf8`
			`from __future__ import unicode_literals`

Add missing imports 2017-11-02 01:02:51 +03:00			`from ...symbols import ORTH, LEMMA, POS, ADV, ADJ, NOUN`
a start 2017-06-27 00:40:04 +03:00

			`_exc = {}`

			`for exc_data in [`
			`{ORTH: "m.in.", LEMMA: "między innymi", POS: ADV},`
			`{ORTH: "inż.", LEMMA: "inżynier", POS: NOUN},`
			`{ORTH: "mgr.", LEMMA: "magister", POS: NOUN},`
			`{ORTH: "tzn.", LEMMA: "to znaczy", POS: ADV},`
			`{ORTH: "tj.", LEMMA: "to jest", POS: ADV},`
			`{ORTH: "tzw.", LEMMA: "tak zwany", POS: ADJ}]:`
Tidy up tokenizer exceptions 2017-11-02 01:02:45 +03:00			`_exc[exc_data[ORTH]] = [exc_data]`
a start 2017-06-27 00:40:04 +03:00
			`for orth in [`
			`"w.", "r."]:`
			`_exc[orth] = [{ORTH: orth}]`


Don't copy exception dicts if not necessary and tidy up 2017-10-31 23:05:29 +03:00			`TOKENIZER_EXCEPTIONS = _exc`