spaCy/spacy/fr/__init__.py

# encoding: utf8
from __future__ import unicode_literals, print_function

from ..language import Language, BaseDefaults
from ..attrs import LANG

from .language_data import *
from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES


class FrenchDefaults(BaseDefaults):
    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
    lex_attr_getters[LANG] = lambda text: 'fr'

    stop_words = STOP_WORDS
    infixes = tuple(TOKENIZER_INFIXES)
    suffixes = tuple(TOKENIZER_SUFFIXES)
    token_match = TOKEN_MATCH

    @classmethod
    def create_tokenizer(cls, nlp=None):
        cls.tokenizer_exceptions = get_tokenizer_exceptions()
        return super(FrenchDefaults, cls).create_tokenizer(nlp)


class French(Language):
    lang = 'fr'

    Defaults = FrenchDefaults
Add encoding declaration 2016-12-17 14:25:44 +03:00			`# encoding: utf8`
Stub out support for French, Spanish, Italian and Portuguese 2016-11-02 22:02:41 +03:00			`from __future__ import unicode_literals, print_function`

Revert "Revert "Merge pull request #818 from raphael0202/tokenizer_exceptions"" This reverts commit f02a2f9322969a637ee2445efd7d1901d2a0d09a. 2017-02-10 15:17:05 +03:00			`from ..language import Language, BaseDefaults`
Update French language data 2016-12-08 22:07:14 +03:00			`from ..attrs import LANG`

Reorganise language data 2016-12-18 18:54:19 +03:00			`from .language_data import *`
Revert "Revert "Merge pull request #818 from raphael0202/tokenizer_exceptions"" This reverts commit f02a2f9322969a637ee2445efd7d1901d2a0d09a. 2017-02-10 15:17:05 +03:00			`from .punctuation import TOKENIZER_INFIXES, TOKENIZER_SUFFIXES`


			`class FrenchDefaults(BaseDefaults):`
			`lex_attr_getters = dict(Language.Defaults.lex_attr_getters)`
			`lex_attr_getters[LANG] = lambda text: 'fr'`

			`stop_words = STOP_WORDS`
			`infixes = tuple(TOKENIZER_INFIXES)`
			`suffixes = tuple(TOKENIZER_SUFFIXES)`
			`token_match = TOKEN_MATCH`

			`@classmethod`
			`def create_tokenizer(cls, nlp=None):`
Avoid loading all French exceptions on import Move exceptions loading behind a get_tokenizer_exceptions() function for French, instead of loading into the top-level namespace. This cuts import times from 0.6s to 0.2s, at the expense of making the French data a little different from the others (there's no top-level TOKENIZER_EXCEPTIONS variable.) The current solution feels somewhat unsatisfying. 2017-02-25 13:55:00 +03:00			`cls.tokenizer_exceptions = get_tokenizer_exceptions()`
Revert "Revert "Merge pull request #818 from raphael0202/tokenizer_exceptions"" This reverts commit f02a2f9322969a637ee2445efd7d1901d2a0d09a. 2017-02-10 15:17:05 +03:00			`return super(FrenchDefaults, cls).create_tokenizer(nlp)`
Stub out support for French, Spanish, Italian and Portuguese 2016-11-02 22:02:41 +03:00

			`class French(Language):`
			`lang = 'fr'`
Update French language data 2016-12-08 22:07:14 +03:00
Revert "Revert "Merge pull request #818 from raphael0202/tokenizer_exceptions"" This reverts commit f02a2f9322969a637ee2445efd7d1901d2a0d09a. 2017-02-10 15:17:05 +03:00			`Defaults = FrenchDefaults`