spaCy/spacy/lang/el/lex_attrs.py

# -*- coding: utf-8 -*-

from __future__ import unicode_literals

from ...attrs import LIKE_NUM

_num_words = ['μηδέν', 'ένας', 'δυο', 'δυό', 'τρεις', 'τέσσερις', 'πέντε',
              'έξι', 'εφτά', 'επτά', 'οκτώ', 'οχτώ',
              'εννιά', 'εννέα', 'δέκα', 'έντεκα', 'ένδεκα', 'δώδεκα',
              'δεκατρείς', 'δεκατέσσερις', 'δεκαπέντε', 'δεκαέξι', 'δεκαεπτά',
              'δεκαοχτώ', 'δεκαεννέα', 'δεκαεννεα', 'είκοσι', 'τριάντα',
              'σαράντα', 'πενήντα', 'εξήντα', 'εβδομήντα', 'ογδόντα',
              'ενενήντα', 'εκατό', 'διακόσιοι', 'διακόσοι', 'τριακόσιοι',
              'τριακόσοι', 'τετρακόσιοι', 'τετρακόσοι', 'πεντακόσιοι',
              'πεντακόσοι', 'εξακόσιοι', 'εξακόσοι', 'εφτακόσιοι', 'εφτακόσοι',
              'επτακόσιοι', 'επτακόσοι', 'οχτακόσιοι', 'οχτακόσοι',
              'οκτακόσιοι', 'οκτακόσοι', 'εννιακόσιοι', 'χίλιοι', 'χιλιάδα',
              'εκατομμύριο', 'δισεκατομμύριο', 'τρισεκατομμύριο', 'τετράκις',
              'πεντάκις', 'εξάκις', 'επτάκις', 'οκτάκις', 'εννεάκις', 'ένα',
              'δύο', 'τρία', 'τέσσερα', 'δις', 'χιλιάδες']


def like_num(text):
    if text.startswith(('+', '-', '±', '~')):
        text = text[1:]
    text = text.replace(',', '').replace('.', '')
    if text.isdigit():
        return True
    if text.count('/') == 1:
        num, denom = text.split('/')
        if num.isdigit() and denom.isdigit():
            return True
    if text.count('^') == 1:
        num, denom = text.split('^')
        if num.isdigit() and denom.isdigit():
            return True
    if text.lower() in _num_words or text.lower().split(' ')[0] in _num_words:
        return True
    if text in _num_words:
        return True
    return False


LEX_ATTRS = {
    LIKE_NUM: like_num
}
Add support for Greek language (#2535) * Add contributor agreement * Support for Greek language * Fix missing el_tokenizer 2018-07-10 14:48:38 +03:00			`# -- coding: utf-8 --`

			`from __future__ import unicode_literals`

			`from ...attrs import LIKE_NUM`

Optimize Greek language support (#2658) 2018-08-14 03:31:32 +03:00			`_num_words = ['μηδέν', 'ένας', 'δυο', 'δυό', 'τρεις', 'τέσσερις', 'πέντε',`
			`'έξι', 'εφτά', 'επτά', 'οκτώ', 'οχτώ',`
			`'εννιά', 'εννέα', 'δέκα', 'έντεκα', 'ένδεκα', 'δώδεκα',`
			`'δεκατρείς', 'δεκατέσσερις', 'δεκαπέντε', 'δεκαέξι', 'δεκαεπτά',`
			`'δεκαοχτώ', 'δεκαεννέα', 'δεκαεννεα', 'είκοσι', 'τριάντα',`
			`'σαράντα', 'πενήντα', 'εξήντα', 'εβδομήντα', 'ογδόντα',`
			`'ενενήντα', 'εκατό', 'διακόσιοι', 'διακόσοι', 'τριακόσιοι',`
			`'τριακόσοι', 'τετρακόσιοι', 'τετρακόσοι', 'πεντακόσιοι',`
			`'πεντακόσοι', 'εξακόσιοι', 'εξακόσοι', 'εφτακόσιοι', 'εφτακόσοι',`
			`'επτακόσιοι', 'επτακόσοι', 'οχτακόσιοι', 'οχτακόσοι',`
			`'οκτακόσιοι', 'οκτακόσοι', 'εννιακόσιοι', 'χίλιοι', 'χιλιάδα',`
			`'εκατομμύριο', 'δισεκατομμύριο', 'τρισεκατομμύριο', 'τετράκις',`
			`'πεντάκις', 'εξάκις', 'επτάκις', 'οκτάκις', 'εννεάκις', 'ένα',`
			`'δύο', 'τρία', 'τέσσερα', 'δις', 'χιλιάδες']`
Add support for Greek language (#2535) * Add contributor agreement * Support for Greek language * Fix missing el_tokenizer 2018-07-10 14:48:38 +03:00

			`def like_num(text):`
💫 Make like_num work for prefixed numbers (#2808) * Only split + prefix if not numbers * Make like_num work for prefixed numbers * Add test for like_num 2018-10-01 11:49:14 +03:00			`if text.startswith(('+', '-', '±', '~')):`
			`text = text[1:]`
Add support for Greek language (#2535) * Add contributor agreement * Support for Greek language * Fix missing el_tokenizer 2018-07-10 14:48:38 +03:00			`text = text.replace(',', '').replace('.', '')`
			`if text.isdigit():`
			`return True`
			`if text.count('/') == 1:`
			`num, denom = text.split('/')`
			`if num.isdigit() and denom.isdigit():`
			`return True`
			`if text.count('^') == 1:`
			`num, denom = text.split('^')`
			`if num.isdigit() and denom.isdigit():`
			`return True`
			`if text.lower() in _num_words or text.lower().split(' ')[0] in _num_words:`
			`return True`
			`if text in _num_words:`
			`return True`
			`return False`


			`LEX_ATTRS = {`
			`LIKE_NUM: like_num`
			`}`