mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-11 12:18:04 +03:00
65 lines
1.1 KiB
Python
65 lines
1.1 KiB
Python
|
# coding: utf8
|
||
|
from __future__ import unicode_literals
|
||
|
|
||
|
from ...attrs import LIKE_NUM
|
||
|
|
||
|
_num_words = [
|
||
|
"nula",
|
||
|
"jedna",
|
||
|
"dva",
|
||
|
"tři",
|
||
|
"čtyři",
|
||
|
"pět",
|
||
|
"šest",
|
||
|
"sedm",
|
||
|
"osm",
|
||
|
"devět",
|
||
|
"deset",
|
||
|
"jedenáct",
|
||
|
"dvanáct",
|
||
|
"třináct",
|
||
|
"čtrnáct",
|
||
|
"patnáct",
|
||
|
"šestnáct",
|
||
|
"sedmnáct",
|
||
|
"osmnáct",
|
||
|
"devatenáct",
|
||
|
"dvacet",
|
||
|
"třicet",
|
||
|
"čtyřicet",
|
||
|
"padesát",
|
||
|
"šedesát",
|
||
|
"sedmdesát",
|
||
|
"osmdesát",
|
||
|
"devadesát",
|
||
|
"sto",
|
||
|
"tisíc",
|
||
|
"milion",
|
||
|
"miliarda",
|
||
|
"bilion",
|
||
|
"biliarda",
|
||
|
"trilion",
|
||
|
"triliarda",
|
||
|
"kvadrilion",
|
||
|
"kvadriliarda",
|
||
|
"kvintilion",
|
||
|
]
|
||
|
|
||
|
|
||
|
def like_num(text):
|
||
|
if text.startswith(("+", "-", "±", "~")):
|
||
|
text = text[1:]
|
||
|
text = text.replace(",", "").replace(".", "")
|
||
|
if text.isdigit():
|
||
|
return True
|
||
|
if text.count("/") == 1:
|
||
|
num, denom = text.split("/")
|
||
|
if num.isdigit() and denom.isdigit():
|
||
|
return True
|
||
|
if text.lower() in _num_words:
|
||
|
return True
|
||
|
return False
|
||
|
|
||
|
|
||
|
LEX_ATTRS = {LIKE_NUM: like_num}
|