mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-10-25 05:01:02 +03:00 
			
		
		
		
	Use global abbreviation data languages and remove duplicates
This commit is contained in:
		
							parent
							
								
									7c3cb2a652
								
							
						
					
					
						commit
						0dec90e9f7
					
				|  | @ -9,12 +9,13 @@ from .stop_words import STOP_WORDS | |||
| from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS) | ||||
| TAG_MAP = dict(TAG_MAP) | ||||
| STOP_WORDS = set(STOP_WORDS) | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS)) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS)) | ||||
| 
 | ||||
| 
 | ||||
|  |  | |||
|  | @ -516,11 +516,6 @@ TOKENIZER_EXCEPTIONS = { | |||
| 
 | ||||
| 
 | ||||
| ORTH_ONLY = [ | ||||
|     "'", | ||||
|     "\\\")", | ||||
|     "<space>", | ||||
|     "a.", | ||||
|     "ä.", | ||||
|     "A.C.", | ||||
|     "a.D.", | ||||
|     "A.D.", | ||||
|  | @ -530,24 +525,20 @@ ORTH_ONLY = [ | |||
|     "Abs.", | ||||
|     "adv.", | ||||
|     "al.", | ||||
|     "b.", | ||||
|     "B.A.", | ||||
|     "B.Sc.", | ||||
|     "betr.", | ||||
|     "biol.", | ||||
|     "Biol.", | ||||
|     "c.", | ||||
|     "ca.", | ||||
|     "Chr.", | ||||
|     "Cie.", | ||||
|     "co.", | ||||
|     "Co.", | ||||
|     "d.", | ||||
|     "D.C.", | ||||
|     "Dipl.-Ing.", | ||||
|     "Dipl.", | ||||
|     "Dr.", | ||||
|     "e.", | ||||
|     "e.g.", | ||||
|     "e.V.", | ||||
|     "ehem.", | ||||
|  | @ -555,79 +546,57 @@ ORTH_ONLY = [ | |||
|     "erm.", | ||||
|     "etc.", | ||||
|     "ev.", | ||||
|     "f.", | ||||
|     "g.", | ||||
|     "G.m.b.H.", | ||||
|     "geb.", | ||||
|     "Gebr.", | ||||
|     "gem.", | ||||
|     "h.", | ||||
|     "h.c.", | ||||
|     "Hg.", | ||||
|     "hrsg.", | ||||
|     "Hrsg.", | ||||
|     "i.", | ||||
|     "i.A.", | ||||
|     "i.e.", | ||||
|     "i.G.", | ||||
|     "i.Tr.", | ||||
|     "i.V.", | ||||
|     "Ing.", | ||||
|     "j.", | ||||
|     "jr.", | ||||
|     "Jr.", | ||||
|     "jun.", | ||||
|     "jur.", | ||||
|     "k.", | ||||
|     "K.O.", | ||||
|     "l.", | ||||
|     "L.A.", | ||||
|     "lat.", | ||||
|     "m.", | ||||
|     "M.A.", | ||||
|     "m.E.", | ||||
|     "m.M.", | ||||
|     "M.Sc.", | ||||
|     "Mr.", | ||||
|     "n.", | ||||
|     "N.Y.", | ||||
|     "N.Y.C.", | ||||
|     "nat.", | ||||
|     "ö." | ||||
|     "o.", | ||||
|     "o.a.", | ||||
|     "o.ä.", | ||||
|     "o.g.", | ||||
|     "o.k.", | ||||
|     "O.K.", | ||||
|     "p.", | ||||
|     "p.a.", | ||||
|     "p.s.", | ||||
|     "P.S.", | ||||
|     "pers.", | ||||
|     "phil.", | ||||
|     "q.", | ||||
|     "q.e.d.", | ||||
|     "r.", | ||||
|     "R.I.P.", | ||||
|     "rer.", | ||||
|     "s.", | ||||
|     "sen.", | ||||
|     "St.", | ||||
|     "std.", | ||||
|     "t.", | ||||
|     "u.", | ||||
|     "ü.", | ||||
|     "u.a.", | ||||
|     "U.S.", | ||||
|     "U.S.A.", | ||||
|     "U.S.S.", | ||||
|     "v.", | ||||
|     "Vol.", | ||||
|     "vs.", | ||||
|     "w.", | ||||
|     "wiss.", | ||||
|     "x.", | ||||
|     "y.", | ||||
|     "z." | ||||
|     "wiss." | ||||
| ] | ||||
|  |  | |||
|  | @ -37,14 +37,16 @@ def get_time_exc(hours): | |||
|     return exc | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS) | ||||
| TAG_MAP = dict(TAG_MAP) | ||||
| STOP_WORDS = set(STOP_WORDS) | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1))) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’")) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS)) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS)) | ||||
| 
 | ||||
| 
 | ||||
| __all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS", "LEMMA_RULES", "MORPH_RULES"] | ||||
|  |  | |||
|  | @ -718,39 +718,25 @@ for string in EXCLUDE_EXC: | |||
| 
 | ||||
| ORTH_ONLY = [ | ||||
|     "'d", | ||||
|     "''", | ||||
|     "a.", | ||||
|     "a.m.", | ||||
|     "Adm.", | ||||
|     "b.", | ||||
|     "Bros.", | ||||
|     "c.", | ||||
|     "co.", | ||||
|     "Co.", | ||||
|     "Corp.", | ||||
|     "d.", | ||||
|     "D.C.", | ||||
|     "Dr.", | ||||
|     "e.", | ||||
|     "e.g.", | ||||
|     "E.g.", | ||||
|     "E.G.", | ||||
|     "f.", | ||||
|     "g.", | ||||
|     "Gen.", | ||||
|     "Gov.", | ||||
|     "h.", | ||||
|     "i.", | ||||
|     "i.e.", | ||||
|     "I.e.", | ||||
|     "I.E.", | ||||
|     "Inc.", | ||||
|     "j.", | ||||
|     "Jr.", | ||||
|     "k.", | ||||
|     "l.", | ||||
|     "Ltd.", | ||||
|     "m.", | ||||
|     "Md.", | ||||
|     "Messrs.", | ||||
|     "Mo.", | ||||
|  | @ -758,24 +744,11 @@ ORTH_ONLY = [ | |||
|     "Mr.", | ||||
|     "Mrs.", | ||||
|     "Ms.", | ||||
|     "n.", | ||||
|     "o.", | ||||
|     "p.", | ||||
|     "p.m.", | ||||
|     "Ph.D.", | ||||
|     "q.", | ||||
|     "r.", | ||||
|     "Rep.", | ||||
|     "Rev.", | ||||
|     "s.", | ||||
|     "Sen.", | ||||
|     "St.", | ||||
|     "t.", | ||||
|     "u.", | ||||
|     "v.", | ||||
|     "vs.", | ||||
|     "w.", | ||||
|     "x.", | ||||
|     "y.", | ||||
|     "z." | ||||
|     "vs." | ||||
| ] | ||||
|  |  | |||
|  | @ -40,11 +40,14 @@ def get_time_exc(hours): | |||
|     return exc | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS) | ||||
| STOP_WORDS = set(STOP_WORDS) | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1))) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS)) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS)) | ||||
| 
 | ||||
| 
 | ||||
| __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"] | ||||
|  |  | |||
|  | @ -85,55 +85,29 @@ TOKENIZER_EXCEPTIONS = { | |||
| 
 | ||||
| 
 | ||||
| ORTH_ONLY = [ | ||||
|     "a.", | ||||
|     "a.C.", | ||||
|     "a.J.C.", | ||||
|     "apdo.", | ||||
|     "Av.", | ||||
|     "Avda.", | ||||
|     "b.", | ||||
|     "c.", | ||||
|     "Cía.", | ||||
|     "d.", | ||||
|     "e.", | ||||
|     "etc.", | ||||
|     "f.", | ||||
|     "g.", | ||||
|     "Gob.", | ||||
|     "Gral.", | ||||
|     "h.", | ||||
|     "i.", | ||||
|     "Ing.", | ||||
|     "j.", | ||||
|     "J.C.", | ||||
|     "k.", | ||||
|     "l.", | ||||
|     "Lic.", | ||||
|     "m.", | ||||
|     "m.n.", | ||||
|     "n.", | ||||
|     "no.", | ||||
|     "núm.", | ||||
|     "o.", | ||||
|     "p.", | ||||
|     "P.D.", | ||||
|     "Prof.", | ||||
|     "Profa.", | ||||
|     "q.", | ||||
|     "q.e.p.d." | ||||
|     "r.", | ||||
|     "s.", | ||||
|     "S.A.", | ||||
|     "S.L.", | ||||
|     "s.s.s.", | ||||
|     "Sr.", | ||||
|     "Sra.", | ||||
|     "Srta.", | ||||
|     "t.", | ||||
|     "u.", | ||||
|     "v.", | ||||
|     "w.", | ||||
|     "x.", | ||||
|     "y.", | ||||
|     "z." | ||||
|     "Srta." | ||||
| ] | ||||
|  |  | |||
|  | @ -2,13 +2,16 @@ | |||
| from __future__ import unicode_literals | ||||
| 
 | ||||
| from .. import language_data as base | ||||
| from ..language_data import strings_to_exc | ||||
| from ..language_data import strings_to_exc, update_exc | ||||
| 
 | ||||
| from .stop_words import STOP_WORDS | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| STOP_WORDS = set(STOP_WORDS) | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS)) | ||||
| 
 | ||||
| 
 | ||||
| __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"] | ||||
|  |  | |||
|  | @ -11,13 +11,14 @@ from .tokenizer_exceptions import OTHER_EXC | |||
| from .. import language_data as base | ||||
| 
 | ||||
| STOP_WORDS = set(STOP_WORDS) | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| TOKENIZER_PREFIXES = base.TOKENIZER_PREFIXES + TOKENIZER_PREFIXES | ||||
| TOKENIZER_SUFFIXES = TOKENIZER_SUFFIXES | ||||
| TOKENIZER_INFIXES = TOKENIZER_INFIXES | ||||
| 
 | ||||
| # HYPHENS = [six.unichr(cp) for cp in [173, 8211, 8212, 8213, 8722, 9472]] | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS)) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(OTHER_EXC)) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ABBREVIATIONS)) | ||||
| 
 | ||||
|  |  | |||
|  | @ -111,7 +111,6 @@ Vcs. | |||
| Vhr. | ||||
| X.Y. | ||||
| Zs. | ||||
| a. | ||||
| a.C. | ||||
| ac. | ||||
| adj. | ||||
|  | @ -126,7 +125,6 @@ ang. | |||
| arch. | ||||
| at. | ||||
| aug. | ||||
| b. | ||||
| b.a. | ||||
| b.s. | ||||
| b.sc. | ||||
|  | @ -141,7 +139,6 @@ br. | |||
| bsc. | ||||
| bt. | ||||
| btk. | ||||
| c. | ||||
| ca. | ||||
| cc. | ||||
| cca. | ||||
|  | @ -155,7 +152,6 @@ csc. | |||
| csüt. | ||||
| cső. | ||||
| ctv. | ||||
| d. | ||||
| dbj. | ||||
| dd. | ||||
| ddr. | ||||
|  | @ -170,7 +166,6 @@ dolg. | |||
| dr. | ||||
| du. | ||||
| dzs. | ||||
| e. | ||||
| ea. | ||||
| ed. | ||||
| eff. | ||||
|  | @ -186,7 +181,6 @@ etc. | |||
| ev. | ||||
| ezr. | ||||
| eü. | ||||
| f. | ||||
| f.h. | ||||
| f.é. | ||||
| fam. | ||||
|  | @ -213,7 +207,6 @@ főig. | |||
| főisk. | ||||
| főtörm. | ||||
| főv. | ||||
| g. | ||||
| gazd. | ||||
| gimn. | ||||
| gk. | ||||
|  | @ -225,7 +218,6 @@ gy. | |||
| gyak. | ||||
| gyártm. | ||||
| gör. | ||||
| h. | ||||
| hads. | ||||
| hallg. | ||||
| hdm. | ||||
|  | @ -266,7 +258,6 @@ isk. | |||
| ism. | ||||
| izr. | ||||
| iá. | ||||
| j. | ||||
| jan. | ||||
| jav. | ||||
| jegyz. | ||||
|  | @ -278,7 +269,6 @@ jr. | |||
| jvb. | ||||
| júl. | ||||
| jún. | ||||
| k. | ||||
| karb. | ||||
| kat. | ||||
| kb. | ||||
|  | @ -313,7 +303,6 @@ közl. | |||
| közp. | ||||
| közt. | ||||
| kü. | ||||
| l. | ||||
| lat. | ||||
| ld. | ||||
| legs. | ||||
|  | @ -324,7 +313,6 @@ lt. | |||
| ltd. | ||||
| ltp. | ||||
| luth. | ||||
| m. | ||||
| m.a. | ||||
| m.s. | ||||
| m.sc. | ||||
|  | @ -359,7 +347,6 @@ műh. | |||
| műsz. | ||||
| műv. | ||||
| művez. | ||||
| n. | ||||
| nagyker. | ||||
| nagys. | ||||
| nat. | ||||
|  | @ -372,7 +359,6 @@ ny. | |||
| nyilv. | ||||
| nyrt. | ||||
| nyug. | ||||
| o. | ||||
| obj. | ||||
| okl. | ||||
| okt. | ||||
|  | @ -381,7 +367,6 @@ orsz. | |||
| ort. | ||||
| ov. | ||||
| ovh. | ||||
| p. | ||||
| pf. | ||||
| pg. | ||||
| ph.d | ||||
|  | @ -404,8 +389,6 @@ pság. | |||
| ptk. | ||||
| pu. | ||||
| pü. | ||||
| q. | ||||
| r. | ||||
| r.k. | ||||
| rac. | ||||
| rad. | ||||
|  | @ -420,7 +403,6 @@ rkt. | |||
| rt. | ||||
| rtg. | ||||
| röv. | ||||
| s. | ||||
| s.b. | ||||
| s.k. | ||||
| sa. | ||||
|  | @ -450,7 +432,6 @@ szt. | |||
| szubj. | ||||
| szöv. | ||||
| szül. | ||||
| t. | ||||
| tanm. | ||||
| tb. | ||||
| tbk. | ||||
|  | @ -476,13 +457,11 @@ tvr. | |||
| ty. | ||||
| törv. | ||||
| tü. | ||||
| u. | ||||
| ua. | ||||
| ui. | ||||
| unit. | ||||
| uo. | ||||
| uv. | ||||
| v. | ||||
| vas. | ||||
| vb. | ||||
| vegy. | ||||
|  | @ -501,9 +480,6 @@ vv. | |||
| vál. | ||||
| vízv. | ||||
| vö. | ||||
| w. | ||||
| y. | ||||
| z. | ||||
| zrt. | ||||
| zs. | ||||
| Ész. | ||||
|  | @ -520,7 +496,6 @@ zs. | |||
| évf. | ||||
| í. | ||||
| ó. | ||||
| ö. | ||||
| össz. | ||||
| ötk. | ||||
| özv. | ||||
|  | @ -528,7 +503,6 @@ zs. | |||
| úm. | ||||
| ún. | ||||
| út. | ||||
| ü. | ||||
| üag. | ||||
| üd. | ||||
| üdv. | ||||
|  | @ -544,6 +518,5 @@ zs. | |||
| """.strip().split() | ||||
| 
 | ||||
| OTHER_EXC = """ | ||||
| '' | ||||
| -e | ||||
| """.strip().split() | ||||
|  |  | |||
|  | @ -7,8 +7,11 @@ from ..language_data import update_exc, strings_to_exc | |||
| from .stop_words import STOP_WORDS | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| STOP_WORDS = set(STOP_WORDS) | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS)) | ||||
| 
 | ||||
| 
 | ||||
| __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"] | ||||
|  |  | |||
|  | @ -7,8 +7,11 @@ from ..language_data import update_exc, strings_to_exc | |||
| from .stop_words import STOP_WORDS | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| STOP_WORDS = set(STOP_WORDS) | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS)) | ||||
| 
 | ||||
| 
 | ||||
| __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"] | ||||
|  |  | |||
|  | @ -7,8 +7,11 @@ from ..language_data import update_exc, strings_to_exc | |||
| from .stop_words import STOP_WORDS | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| STOP_WORDS = set(STOP_WORDS) | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS)) | ||||
| 
 | ||||
| 
 | ||||
| __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"] | ||||
|  |  | |||
|  | @ -7,8 +7,11 @@ from ..language_data import update_exc, strings_to_exc | |||
| from .stop_words import STOP_WORDS | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| STOP_WORDS = set(STOP_WORDS) | ||||
| 
 | ||||
| 
 | ||||
| TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) | ||||
| update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.ABBREVIATIONS)) | ||||
| 
 | ||||
| 
 | ||||
| __all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"] | ||||
|  |  | |||
		Loading…
	
		Reference in New Issue
	
	Block a user