mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-10-31 07:57:35 +03:00 
			
		
		
		
	* Add ancient Greek language support Initial commit * Contributor Agreement * grc tokenizer test added and files formatted with black, unnecessary import removed Co-Authored-By: Sofie Van Landeghem <svlandeg@users.noreply.github.com> * Commas in lists fixed. __init__py added to test * Update lex_attrs.py * Update stop_words.py * Update stop_words.py Co-authored-by: Sofie Van Landeghem <svlandeg@users.noreply.github.com>
		
			
				
	
	
		
			315 lines
		
	
	
		
			6.5 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
			
		
		
	
	
			315 lines
		
	
	
		
			6.5 KiB
		
	
	
	
		
			Python
		
	
	
	
	
	
| from ...attrs import LIKE_NUM
 | ||
| 
 | ||
| 
 | ||
| _num_words = [
 | ||
|     # CARDINALS
 | ||
|     "εἷς",
 | ||
|     "ἑνός",
 | ||
|     "ἑνί",
 | ||
|     "ἕνα",
 | ||
|     "μία",
 | ||
|     "μιᾶς",
 | ||
|     "μιᾷ",
 | ||
|     "μίαν",
 | ||
|     "ἕν",
 | ||
|     "δύο",
 | ||
|     "δυοῖν",
 | ||
|     "τρεῖς",
 | ||
|     "τριῶν",
 | ||
|     "τρισί",
 | ||
|     "τρία",
 | ||
|     "τέτταρες",
 | ||
|     "τεττάρων",
 | ||
|     "τέτταρσι",
 | ||
|     "τέτταρα",
 | ||
|     "τέτταρας",
 | ||
|     "πέντε",
 | ||
|     "ἕξ",
 | ||
|     "ἑπτά",
 | ||
|     "ὀκτώ",
 | ||
|     "ἐννέα",
 | ||
|     "δέκα",
 | ||
|     "ἕνδεκα",
 | ||
|     "δώδεκα",
 | ||
|     "πεντεκαίδεκα",
 | ||
|     "ἑκκαίδεκα",
 | ||
|     "ἑπτακαίδεκα",
 | ||
|     "ὀκτωκαίδεκα",
 | ||
|     "ἐννεακαίδεκα",
 | ||
|     "εἴκοσι",
 | ||
|     "τριάκοντα",
 | ||
|     "τετταράκοντα",
 | ||
|     "πεντήκοντα",
 | ||
|     "ἑξήκοντα",
 | ||
|     "ἑβδομήκοντα",
 | ||
|     "ὀγδοήκοντα",
 | ||
|     "ἐνενήκοντα",
 | ||
|     "ἑκατόν",
 | ||
|     "διακόσιοι",
 | ||
|     "διακοσίων",
 | ||
|     "διακοσιᾶν",
 | ||
|     "διακοσίους",
 | ||
|     "διακοσίοις",
 | ||
|     "διακόσια",
 | ||
|     "διακόσιαι",
 | ||
|     "διακοσίαις",
 | ||
|     "διακοσίαισι",
 | ||
|     "διηκόσιοι",
 | ||
|     "διηκοσίων",
 | ||
|     "διηκοσιέων",
 | ||
|     "διακοσίας",
 | ||
|     "διηκόσια",
 | ||
|     "διηκόσιαι",
 | ||
|     "διηκοσίας",
 | ||
|     "τριακόσιοι",
 | ||
|     "τριακοσίων",
 | ||
|     "τριακοσιᾶν",
 | ||
|     "τριακοσίους",
 | ||
|     "τριακοσίοις",
 | ||
|     "τριακόσια",
 | ||
|     "τριακόσιαι",
 | ||
|     "τριακοσίαις",
 | ||
|     "τριακοσίαισι",
 | ||
|     "τριακοσιέων",
 | ||
|     "τριακοσίας",
 | ||
|     "τριηκόσια",
 | ||
|     "τριηκοσίας",
 | ||
|     "τριηκόσιοι",
 | ||
|     "τριηκοσίοισιν",
 | ||
|     "τριηκοσίους",
 | ||
|     "τριηκοσίων",
 | ||
|     "τετρακόσιοι",
 | ||
|     "τετρακοσίων",
 | ||
|     "τετρακοσιᾶν",
 | ||
|     "τετρακοσίους",
 | ||
|     "τετρακοσίοις",
 | ||
|     "τετρακόσια",
 | ||
|     "τετρακόσιαι",
 | ||
|     "τετρακοσίαις",
 | ||
|     "τετρακοσίαισι",
 | ||
|     "τετρακοσιέων",
 | ||
|     "τετρακοσίας",
 | ||
|     "πεντακόσιοι",
 | ||
|     "πεντακοσίων",
 | ||
|     "πεντακοσιᾶν",
 | ||
|     "πεντακοσίους",
 | ||
|     "πεντακοσίοις",
 | ||
|     "πεντακόσια",
 | ||
|     "πεντακόσιαι",
 | ||
|     "πεντακοσίαις",
 | ||
|     "πεντακοσίαισι",
 | ||
|     "πεντακοσιέων",
 | ||
|     "πεντακοσίας",
 | ||
|     "ἑξακόσιοι",
 | ||
|     "ἑξακοσίων",
 | ||
|     "ἑξακοσιᾶν",
 | ||
|     "ἑξακοσίους",
 | ||
|     "ἑξακοσίοις",
 | ||
|     "ἑξακόσια",
 | ||
|     "ἑξακόσιαι",
 | ||
|     "ἑξακοσίαις",
 | ||
|     "ἑξακοσίαισι",
 | ||
|     "ἑξακοσιέων",
 | ||
|     "ἑξακοσίας",
 | ||
|     "ἑπτακόσιοι",
 | ||
|     "ἑπτακοσίων",
 | ||
|     "ἑπτακοσιᾶν",
 | ||
|     "ἑπτακοσίους",
 | ||
|     "ἑπτακοσίοις",
 | ||
|     "ἑπτακόσια",
 | ||
|     "ἑπτακόσιαι",
 | ||
|     "ἑπτακοσίαις",
 | ||
|     "ἑπτακοσίαισι",
 | ||
|     "ἑπτακοσιέων",
 | ||
|     "ἑπτακοσίας",
 | ||
|     "ὀκτακόσιοι",
 | ||
|     "ὀκτακοσίων",
 | ||
|     "ὀκτακοσιᾶν",
 | ||
|     "ὀκτακοσίους",
 | ||
|     "ὀκτακοσίοις",
 | ||
|     "ὀκτακόσια",
 | ||
|     "ὀκτακόσιαι",
 | ||
|     "ὀκτακοσίαις",
 | ||
|     "ὀκτακοσίαισι",
 | ||
|     "ὀκτακοσιέων",
 | ||
|     "ὀκτακοσίας",
 | ||
|     "ἐνακόσιοι",
 | ||
|     "ἐνακοσίων",
 | ||
|     "ἐνακοσιᾶν",
 | ||
|     "ἐνακοσίους",
 | ||
|     "ἐνακοσίοις",
 | ||
|     "ἐνακόσια",
 | ||
|     "ἐνακόσιαι",
 | ||
|     "ἐνακοσίαις",
 | ||
|     "ἐνακοσίαισι",
 | ||
|     "ἐνακοσιέων",
 | ||
|     "ἐνακοσίας",
 | ||
|     "χίλιοι",
 | ||
|     "χιλίων",
 | ||
|     "χιλιῶν",
 | ||
|     "χιλίους",
 | ||
|     "χιλίοις",
 | ||
|     "χίλιαι",
 | ||
|     "χιλίας",
 | ||
|     "χιλίαις",
 | ||
|     "χίλια",
 | ||
|     "χίλι",
 | ||
|     "δισχίλιοι",
 | ||
|     "δισχιλίων",
 | ||
|     "δισχιλιῶν",
 | ||
|     "δισχιλίους",
 | ||
|     "δισχιλίοις",
 | ||
|     "δισχίλιαι",
 | ||
|     "δισχιλίας",
 | ||
|     "δισχιλίαις",
 | ||
|     "δισχίλια",
 | ||
|     "δισχίλι",
 | ||
|     "τρισχίλιοι",
 | ||
|     "τρισχιλίων",
 | ||
|     "τρισχιλιῶν",
 | ||
|     "τρισχιλίους",
 | ||
|     "τρισχιλίοις",
 | ||
|     "τρισχίλιαι",
 | ||
|     "τρισχιλίας",
 | ||
|     "τρισχιλίαις",
 | ||
|     "τρισχίλια",
 | ||
|     "τρισχίλι",
 | ||
|     "μύριοι",
 | ||
|     "μύριοί",
 | ||
|     "μυρίων",
 | ||
|     "μυρίοις",
 | ||
|     "μυρίους",
 | ||
|     "μύριαι",
 | ||
|     "μυρίαις",
 | ||
|     "μυρίας",
 | ||
|     "μύρια",
 | ||
|     "δισμύριοι",
 | ||
|     "δισμύριοί",
 | ||
|     "δισμυρίων",
 | ||
|     "δισμυρίοις",
 | ||
|     "δισμυρίους",
 | ||
|     "δισμύριαι",
 | ||
|     "δισμυρίαις",
 | ||
|     "δισμυρίας",
 | ||
|     "δισμύρια",
 | ||
|     "δεκακισμύριοι",
 | ||
|     "δεκακισμύριοί",
 | ||
|     "δεκακισμυρίων",
 | ||
|     "δεκακισμυρίοις",
 | ||
|     "δεκακισμυρίους",
 | ||
|     "δεκακισμύριαι",
 | ||
|     "δεκακισμυρίαις",
 | ||
|     "δεκακισμυρίας",
 | ||
|     "δεκακισμύρια",
 | ||
|     #  ANCIENT GREEK NUMBERS (1-100)
 | ||
|     "α",
 | ||
|     "β",
 | ||
|     "γ",
 | ||
|     "δ",
 | ||
|     "ε",
 | ||
|     "ϛ",
 | ||
|     "ζ",
 | ||
|     "η",
 | ||
|     "θ",
 | ||
|     "ι",
 | ||
|     "ια",
 | ||
|     "ιβ",
 | ||
|     "ιγ",
 | ||
|     "ιδ",
 | ||
|     "ιε",
 | ||
|     "ιϛ",
 | ||
|     "ιζ",
 | ||
|     "ιη",
 | ||
|     "ιθ",
 | ||
|     "κ",
 | ||
|     "κα",
 | ||
|     "κβ",
 | ||
|     "κγ",
 | ||
|     "κδ",
 | ||
|     "κε",
 | ||
|     "κϛ",
 | ||
|     "κζ",
 | ||
|     "κη",
 | ||
|     "κθ",
 | ||
|     "λ",
 | ||
|     "λα",
 | ||
|     "λβ",
 | ||
|     "λγ",
 | ||
|     "λδ",
 | ||
|     "λε",
 | ||
|     "λϛ",
 | ||
|     "λζ",
 | ||
|     "λη",
 | ||
|     "λθ",
 | ||
|     "μ",
 | ||
|     "μα",
 | ||
|     "μβ",
 | ||
|     "μγ",
 | ||
|     "μδ",
 | ||
|     "με",
 | ||
|     "μϛ",
 | ||
|     "μζ",
 | ||
|     "μη",
 | ||
|     "μθ",
 | ||
|     "ν",
 | ||
|     "να",
 | ||
|     "νβ",
 | ||
|     "νγ",
 | ||
|     "νδ",
 | ||
|     "νε",
 | ||
|     "νϛ",
 | ||
|     "νζ",
 | ||
|     "νη",
 | ||
|     "νθ",
 | ||
|     "ξ",
 | ||
|     "ξα",
 | ||
|     "ξβ",
 | ||
|     "ξγ",
 | ||
|     "ξδ",
 | ||
|     "ξε",
 | ||
|     "ξϛ",
 | ||
|     "ξζ",
 | ||
|     "ξη",
 | ||
|     "ξθ",
 | ||
|     "ο",
 | ||
|     "οα",
 | ||
|     "οβ",
 | ||
|     "ογ",
 | ||
|     "οδ",
 | ||
|     "οε",
 | ||
|     "οϛ",
 | ||
|     "οζ",
 | ||
|     "οη",
 | ||
|     "οθ",
 | ||
|     "π",
 | ||
|     "πα",
 | ||
|     "πβ",
 | ||
|     "πγ",
 | ||
|     "πδ",
 | ||
|     "πε",
 | ||
|     "πϛ",
 | ||
|     "πζ",
 | ||
|     "πη",
 | ||
|     "πθ",
 | ||
|     "ϟ",
 | ||
|     "ϟα",
 | ||
|     "ϟβ",
 | ||
|     "ϟγ",
 | ||
|     "ϟδ",
 | ||
|     "ϟε",
 | ||
|     "ϟϛ",
 | ||
|     "ϟζ",
 | ||
|     "ϟη",
 | ||
|     "ϟθ",
 | ||
|     "ρ",
 | ||
| ]
 | ||
| 
 | ||
| 
 | ||
| def like_num(text):
 | ||
|     if text.lower() in _num_words:
 | ||
|         return True
 | ||
|     return False
 | ||
| 
 | ||
| 
 | ||
| LEX_ATTRS = {LIKE_NUM: like_num}
 |