mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-10-31 16:07:41 +03:00 
			
		
		
		
	Merge base tokenizer exceptions
This commit is contained in:
		
							parent
							
								
									24606d364c
								
							
						
					
					
						commit
						e7f95c37ee
					
				|  | @ -1,43 +0,0 @@ | |||
| # coding: utf8 | ||||
| from __future__ import unicode_literals | ||||
| 
 | ||||
| 
 | ||||
| ABBREVIATIONS = [ | ||||
|     "'", | ||||
|     "\\\")", | ||||
|     "<space>", | ||||
|     "''", | ||||
|     "C++", | ||||
|     "a.", | ||||
|     "b.", | ||||
|     "c.", | ||||
|     "d.", | ||||
|     "e.", | ||||
|     "f.", | ||||
|     "g.", | ||||
|     "h.", | ||||
|     "i.", | ||||
|     "j.", | ||||
|     "k.", | ||||
|     "l.", | ||||
|     "m.", | ||||
|     "n.", | ||||
|     "o.", | ||||
|     "p.", | ||||
|     "q.", | ||||
|     "r.", | ||||
|     "s.", | ||||
|     "t.", | ||||
|     "u.", | ||||
|     "v.", | ||||
|     "w.", | ||||
|     "x.", | ||||
|     "y.", | ||||
|     "z.", | ||||
|     "ä.", | ||||
|     "ö.", | ||||
|     "ü." | ||||
| ] | ||||
| 
 | ||||
| 
 | ||||
| __all__ = [ "ABBREVIATIONS" ] | ||||
|  | @ -1,148 +0,0 @@ | |||
| # coding: utf8 | ||||
| from __future__ import unicode_literals | ||||
| 
 | ||||
| 
 | ||||
| EMOTICONS = set(""" | ||||
| :) | ||||
| :-) | ||||
| :)) | ||||
| :-)) | ||||
| :))) | ||||
| :-))) | ||||
| (: | ||||
| (-: | ||||
| =) | ||||
| (= | ||||
| ") | ||||
| :] | ||||
| :-] | ||||
| [: | ||||
| [-: | ||||
| :o) | ||||
| (o: | ||||
| :} | ||||
| :-} | ||||
| 8) | ||||
| 8-) | ||||
| (-8 | ||||
| 
 | ||||
| ;) | ||||
| ;-) | ||||
| (; | ||||
| (-; | ||||
| 
 | ||||
| :( | ||||
| :-( | ||||
| :(( | ||||
| :-(( | ||||
| :((( | ||||
| :-((( | ||||
| ): | ||||
| )-: | ||||
| =( | ||||
| >:( | ||||
| 
 | ||||
| :') | ||||
| :'-) | ||||
| :'( | ||||
| :'-( | ||||
| 
 | ||||
| :/ | ||||
| :-/ | ||||
| =/ | ||||
| =| | ||||
| :| | ||||
| :-| | ||||
| :1 | ||||
| 
 | ||||
| :P | ||||
| :-P | ||||
| :p | ||||
| :-p | ||||
| 
 | ||||
| :O | ||||
| :-O | ||||
| :o | ||||
| :-o | ||||
| :0 | ||||
| :-0 | ||||
| :() | ||||
| >:o | ||||
| 
 | ||||
| :* | ||||
| :-* | ||||
| :3 | ||||
| :-3 | ||||
| =3 | ||||
| :> | ||||
| :-> | ||||
| 
 | ||||
| :X | ||||
| :-X | ||||
| :x | ||||
| :-x | ||||
| 
 | ||||
| :D | ||||
| :-D | ||||
| ;D | ||||
| ;-D | ||||
| =D | ||||
| xD | ||||
| XD | ||||
| xDD | ||||
| XDD | ||||
| 8D | ||||
| 8-D | ||||
| 
 | ||||
| ^_^ | ||||
| ^__^ | ||||
| ^___^ | ||||
| >.< | ||||
| >.> | ||||
| <.< | ||||
| ._. | ||||
| ;_; | ||||
| -_- | ||||
| -__- | ||||
| v.v | ||||
| V.V | ||||
| v_v | ||||
| V_V | ||||
| o_o | ||||
| o_O | ||||
| O_o | ||||
| O_O | ||||
| 0_o | ||||
| o_0 | ||||
| 0_0 | ||||
| o.O | ||||
| O.o | ||||
| O.O | ||||
| o.o | ||||
| 0.0 | ||||
| o.0 | ||||
| 0.o | ||||
| @_@ | ||||
| 
 | ||||
| <3 | ||||
| <33 | ||||
| <333 | ||||
| </3 | ||||
| 
 | ||||
| (^_^) | ||||
| (-_-) | ||||
| (._.) | ||||
| (>_<) | ||||
| (*_*) | ||||
| (¬_¬) | ||||
| 
 | ||||
| ಠ_ಠ | ||||
| ಠ︵ಠ | ||||
| (ಠ_ಠ) | ||||
| ¯\(ツ)/¯ | ||||
| (╯°□°)╯︵┻━┻ | ||||
| ><(((*> | ||||
| """.split()) | ||||
| 
 | ||||
| 
 | ||||
| __all__ = [ "EMOTICONS" ] | ||||
|  | @ -1,9 +1,13 @@ | |||
| # coding: utf8 | ||||
| from __future__ import unicode_literals | ||||
| 
 | ||||
| # The use of this module turns out to be important, to avoid pathological | ||||
| # back-tracking. See Issue #957 | ||||
| import regex | ||||
| 
 | ||||
| from ..symbols import ORTH, POS, LEMMA, SPACE, PUNCT | ||||
| 
 | ||||
| 
 | ||||
| # URL validation regex courtesy of: https://mathiasbynens.be/demo/url-regex | ||||
| # A few minor mods to this regex to account for use cases represented in test_urls | ||||
| _URL_PATTERN = ( | ||||
|  | @ -51,4 +55,159 @@ _URL_PATTERN = ( | |||
| 
 | ||||
| TOKEN_MATCH = regex.compile(_URL_PATTERN, regex.UNICODE).match | ||||
| 
 | ||||
| __all__ = ['TOKEN_MATCH'] | ||||
| 
 | ||||
| 
 | ||||
| BASE_EXCEPTIONS = {} | ||||
| 
 | ||||
| 
 | ||||
| for exc_data in [ | ||||
|     {ORTH: " ", POS: SPACE}, | ||||
|     {ORTH: "\t", POS: SPACE}, | ||||
|     {ORTH: "\\t", POS: SPACE}, | ||||
|     {ORTH: "\n", POS: SPACE}, | ||||
|     {ORTH: "\\n", POS: SPACE}, | ||||
|     {ORTH: "\u2014", POS: PUNCT, LEMMA: "--"}, | ||||
|     {ORTH: "\u00a0", POS: SPACE, LEMMA: "  "}]: | ||||
|     BASE_EXCEPTIONS[exc_data[ORTH]] = [dict(exc_data)] | ||||
| 
 | ||||
| 
 | ||||
| for orth in [ | ||||
|     "'", "\\\")", "<space>", "''", "C++", "a.", "b.", "c.", "d.", "e.", "f.", | ||||
|     "g.", "h.", "i.", "j.", "k.", "l.", "m.", "n.", "o.", "p.", "q.", "r.", | ||||
|     "s.", "t.", "u.", "v.", "w.", "x.", "y.", "z.", "ä.", "ö.", "ü."]: | ||||
|     BASE_EXCEPTIONS[orth] = [{ORTH: orth}] | ||||
| 
 | ||||
| 
 | ||||
| emoticons = set(""" | ||||
| :) | ||||
| :-) | ||||
| :)) | ||||
| :-)) | ||||
| :))) | ||||
| :-))) | ||||
| (: | ||||
| (-: | ||||
| =) | ||||
| (= | ||||
| ") | ||||
| :] | ||||
| :-] | ||||
| [: | ||||
| [-: | ||||
| :o) | ||||
| (o: | ||||
| :} | ||||
| :-} | ||||
| 8) | ||||
| 8-) | ||||
| (-8 | ||||
| ;) | ||||
| ;-) | ||||
| (; | ||||
| (-; | ||||
| :( | ||||
| :-( | ||||
| :(( | ||||
| :-(( | ||||
| :((( | ||||
| :-((( | ||||
| ): | ||||
| )-: | ||||
| =( | ||||
| >:( | ||||
| :') | ||||
| :'-) | ||||
| :'( | ||||
| :'-( | ||||
| :/ | ||||
| :-/ | ||||
| =/ | ||||
| =| | ||||
| :| | ||||
| :-| | ||||
| :1 | ||||
| :P | ||||
| :-P | ||||
| :p | ||||
| :-p | ||||
| :O | ||||
| :-O | ||||
| :o | ||||
| :-o | ||||
| :0 | ||||
| :-0 | ||||
| :() | ||||
| >:o | ||||
| :* | ||||
| :-* | ||||
| :3 | ||||
| :-3 | ||||
| =3 | ||||
| :> | ||||
| :-> | ||||
| :X | ||||
| :-X | ||||
| :x | ||||
| :-x | ||||
| :D | ||||
| :-D | ||||
| ;D | ||||
| ;-D | ||||
| =D | ||||
| xD | ||||
| XD | ||||
| xDD | ||||
| XDD | ||||
| 8D | ||||
| 8-D | ||||
| 
 | ||||
| ^_^ | ||||
| ^__^ | ||||
| ^___^ | ||||
| >.< | ||||
| >.> | ||||
| <.< | ||||
| ._. | ||||
| ;_; | ||||
| -_- | ||||
| -__- | ||||
| v.v | ||||
| V.V | ||||
| v_v | ||||
| V_V | ||||
| o_o | ||||
| o_O | ||||
| O_o | ||||
| O_O | ||||
| 0_o | ||||
| o_0 | ||||
| 0_0 | ||||
| o.O | ||||
| O.o | ||||
| O.O | ||||
| o.o | ||||
| 0.0 | ||||
| o.0 | ||||
| 0.o | ||||
| @_@ | ||||
| <3 | ||||
| <33 | ||||
| <333 | ||||
| </3 | ||||
| (^_^) | ||||
| (-_-) | ||||
| (._.) | ||||
| (>_<) | ||||
| (*_*) | ||||
| (¬_¬) | ||||
| ಠ_ಠ | ||||
| ಠ︵ಠ | ||||
| (ಠ_ಠ) | ||||
| ¯\(ツ)/¯ | ||||
| (╯°□°)╯︵┻━┻ | ||||
| ><(((*> | ||||
| """.split()) | ||||
| 
 | ||||
| 
 | ||||
| for orth in emoticons: | ||||
|     BASE_EXCEPTIONS[orth] = [{ORTH: orth}] | ||||
|  |  | |||
		Loading…
	
		Reference in New Issue
	
	Block a user