mirror of
				https://github.com/explosion/spaCy.git
				synced 2025-10-31 16:07:41 +03:00 
			
		
		
		
	Merge base tokenizer exceptions
This commit is contained in:
		
							parent
							
								
									24606d364c
								
							
						
					
					
						commit
						e7f95c37ee
					
				|  | @ -1,43 +0,0 @@ | ||||||
| # coding: utf8 |  | ||||||
| from __future__ import unicode_literals |  | ||||||
| 
 |  | ||||||
| 
 |  | ||||||
| ABBREVIATIONS = [ |  | ||||||
|     "'", |  | ||||||
|     "\\\")", |  | ||||||
|     "<space>", |  | ||||||
|     "''", |  | ||||||
|     "C++", |  | ||||||
|     "a.", |  | ||||||
|     "b.", |  | ||||||
|     "c.", |  | ||||||
|     "d.", |  | ||||||
|     "e.", |  | ||||||
|     "f.", |  | ||||||
|     "g.", |  | ||||||
|     "h.", |  | ||||||
|     "i.", |  | ||||||
|     "j.", |  | ||||||
|     "k.", |  | ||||||
|     "l.", |  | ||||||
|     "m.", |  | ||||||
|     "n.", |  | ||||||
|     "o.", |  | ||||||
|     "p.", |  | ||||||
|     "q.", |  | ||||||
|     "r.", |  | ||||||
|     "s.", |  | ||||||
|     "t.", |  | ||||||
|     "u.", |  | ||||||
|     "v.", |  | ||||||
|     "w.", |  | ||||||
|     "x.", |  | ||||||
|     "y.", |  | ||||||
|     "z.", |  | ||||||
|     "ä.", |  | ||||||
|     "ö.", |  | ||||||
|     "ü." |  | ||||||
| ] |  | ||||||
| 
 |  | ||||||
| 
 |  | ||||||
| __all__ = [ "ABBREVIATIONS" ] |  | ||||||
|  | @ -1,148 +0,0 @@ | ||||||
| # coding: utf8 |  | ||||||
| from __future__ import unicode_literals |  | ||||||
| 
 |  | ||||||
| 
 |  | ||||||
| EMOTICONS = set(""" |  | ||||||
| :) |  | ||||||
| :-) |  | ||||||
| :)) |  | ||||||
| :-)) |  | ||||||
| :))) |  | ||||||
| :-))) |  | ||||||
| (: |  | ||||||
| (-: |  | ||||||
| =) |  | ||||||
| (= |  | ||||||
| ") |  | ||||||
| :] |  | ||||||
| :-] |  | ||||||
| [: |  | ||||||
| [-: |  | ||||||
| :o) |  | ||||||
| (o: |  | ||||||
| :} |  | ||||||
| :-} |  | ||||||
| 8) |  | ||||||
| 8-) |  | ||||||
| (-8 |  | ||||||
| 
 |  | ||||||
| ;) |  | ||||||
| ;-) |  | ||||||
| (; |  | ||||||
| (-; |  | ||||||
| 
 |  | ||||||
| :( |  | ||||||
| :-( |  | ||||||
| :(( |  | ||||||
| :-(( |  | ||||||
| :((( |  | ||||||
| :-((( |  | ||||||
| ): |  | ||||||
| )-: |  | ||||||
| =( |  | ||||||
| >:( |  | ||||||
| 
 |  | ||||||
| :') |  | ||||||
| :'-) |  | ||||||
| :'( |  | ||||||
| :'-( |  | ||||||
| 
 |  | ||||||
| :/ |  | ||||||
| :-/ |  | ||||||
| =/ |  | ||||||
| =| |  | ||||||
| :| |  | ||||||
| :-| |  | ||||||
| :1 |  | ||||||
| 
 |  | ||||||
| :P |  | ||||||
| :-P |  | ||||||
| :p |  | ||||||
| :-p |  | ||||||
| 
 |  | ||||||
| :O |  | ||||||
| :-O |  | ||||||
| :o |  | ||||||
| :-o |  | ||||||
| :0 |  | ||||||
| :-0 |  | ||||||
| :() |  | ||||||
| >:o |  | ||||||
| 
 |  | ||||||
| :* |  | ||||||
| :-* |  | ||||||
| :3 |  | ||||||
| :-3 |  | ||||||
| =3 |  | ||||||
| :> |  | ||||||
| :-> |  | ||||||
| 
 |  | ||||||
| :X |  | ||||||
| :-X |  | ||||||
| :x |  | ||||||
| :-x |  | ||||||
| 
 |  | ||||||
| :D |  | ||||||
| :-D |  | ||||||
| ;D |  | ||||||
| ;-D |  | ||||||
| =D |  | ||||||
| xD |  | ||||||
| XD |  | ||||||
| xDD |  | ||||||
| XDD |  | ||||||
| 8D |  | ||||||
| 8-D |  | ||||||
| 
 |  | ||||||
| ^_^ |  | ||||||
| ^__^ |  | ||||||
| ^___^ |  | ||||||
| >.< |  | ||||||
| >.> |  | ||||||
| <.< |  | ||||||
| ._. |  | ||||||
| ;_; |  | ||||||
| -_- |  | ||||||
| -__- |  | ||||||
| v.v |  | ||||||
| V.V |  | ||||||
| v_v |  | ||||||
| V_V |  | ||||||
| o_o |  | ||||||
| o_O |  | ||||||
| O_o |  | ||||||
| O_O |  | ||||||
| 0_o |  | ||||||
| o_0 |  | ||||||
| 0_0 |  | ||||||
| o.O |  | ||||||
| O.o |  | ||||||
| O.O |  | ||||||
| o.o |  | ||||||
| 0.0 |  | ||||||
| o.0 |  | ||||||
| 0.o |  | ||||||
| @_@ |  | ||||||
| 
 |  | ||||||
| <3 |  | ||||||
| <33 |  | ||||||
| <333 |  | ||||||
| </3 |  | ||||||
| 
 |  | ||||||
| (^_^) |  | ||||||
| (-_-) |  | ||||||
| (._.) |  | ||||||
| (>_<) |  | ||||||
| (*_*) |  | ||||||
| (¬_¬) |  | ||||||
| 
 |  | ||||||
| ಠ_ಠ |  | ||||||
| ಠ︵ಠ |  | ||||||
| (ಠ_ಠ) |  | ||||||
| ¯\(ツ)/¯ |  | ||||||
| (╯°□°)╯︵┻━┻ |  | ||||||
| ><(((*> |  | ||||||
| """.split()) |  | ||||||
| 
 |  | ||||||
| 
 |  | ||||||
| __all__ = [ "EMOTICONS" ] |  | ||||||
|  | @ -1,9 +1,13 @@ | ||||||
|  | # coding: utf8 | ||||||
| from __future__ import unicode_literals | from __future__ import unicode_literals | ||||||
| 
 | 
 | ||||||
| # The use of this module turns out to be important, to avoid pathological | # The use of this module turns out to be important, to avoid pathological | ||||||
| # back-tracking. See Issue #957 | # back-tracking. See Issue #957 | ||||||
| import regex | import regex | ||||||
| 
 | 
 | ||||||
|  | from ..symbols import ORTH, POS, LEMMA, SPACE, PUNCT | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
| # URL validation regex courtesy of: https://mathiasbynens.be/demo/url-regex | # URL validation regex courtesy of: https://mathiasbynens.be/demo/url-regex | ||||||
| # A few minor mods to this regex to account for use cases represented in test_urls | # A few minor mods to this regex to account for use cases represented in test_urls | ||||||
| _URL_PATTERN = ( | _URL_PATTERN = ( | ||||||
|  | @ -51,4 +55,159 @@ _URL_PATTERN = ( | ||||||
| 
 | 
 | ||||||
| TOKEN_MATCH = regex.compile(_URL_PATTERN, regex.UNICODE).match | TOKEN_MATCH = regex.compile(_URL_PATTERN, regex.UNICODE).match | ||||||
| 
 | 
 | ||||||
| __all__ = ['TOKEN_MATCH'] | 
 | ||||||
|  | 
 | ||||||
|  | BASE_EXCEPTIONS = {} | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | for exc_data in [ | ||||||
|  |     {ORTH: " ", POS: SPACE}, | ||||||
|  |     {ORTH: "\t", POS: SPACE}, | ||||||
|  |     {ORTH: "\\t", POS: SPACE}, | ||||||
|  |     {ORTH: "\n", POS: SPACE}, | ||||||
|  |     {ORTH: "\\n", POS: SPACE}, | ||||||
|  |     {ORTH: "\u2014", POS: PUNCT, LEMMA: "--"}, | ||||||
|  |     {ORTH: "\u00a0", POS: SPACE, LEMMA: "  "}]: | ||||||
|  |     BASE_EXCEPTIONS[exc_data[ORTH]] = [dict(exc_data)] | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | for orth in [ | ||||||
|  |     "'", "\\\")", "<space>", "''", "C++", "a.", "b.", "c.", "d.", "e.", "f.", | ||||||
|  |     "g.", "h.", "i.", "j.", "k.", "l.", "m.", "n.", "o.", "p.", "q.", "r.", | ||||||
|  |     "s.", "t.", "u.", "v.", "w.", "x.", "y.", "z.", "ä.", "ö.", "ü."]: | ||||||
|  |     BASE_EXCEPTIONS[orth] = [{ORTH: orth}] | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | emoticons = set(""" | ||||||
|  | :) | ||||||
|  | :-) | ||||||
|  | :)) | ||||||
|  | :-)) | ||||||
|  | :))) | ||||||
|  | :-))) | ||||||
|  | (: | ||||||
|  | (-: | ||||||
|  | =) | ||||||
|  | (= | ||||||
|  | ") | ||||||
|  | :] | ||||||
|  | :-] | ||||||
|  | [: | ||||||
|  | [-: | ||||||
|  | :o) | ||||||
|  | (o: | ||||||
|  | :} | ||||||
|  | :-} | ||||||
|  | 8) | ||||||
|  | 8-) | ||||||
|  | (-8 | ||||||
|  | ;) | ||||||
|  | ;-) | ||||||
|  | (; | ||||||
|  | (-; | ||||||
|  | :( | ||||||
|  | :-( | ||||||
|  | :(( | ||||||
|  | :-(( | ||||||
|  | :((( | ||||||
|  | :-((( | ||||||
|  | ): | ||||||
|  | )-: | ||||||
|  | =( | ||||||
|  | >:( | ||||||
|  | :') | ||||||
|  | :'-) | ||||||
|  | :'( | ||||||
|  | :'-( | ||||||
|  | :/ | ||||||
|  | :-/ | ||||||
|  | =/ | ||||||
|  | =| | ||||||
|  | :| | ||||||
|  | :-| | ||||||
|  | :1 | ||||||
|  | :P | ||||||
|  | :-P | ||||||
|  | :p | ||||||
|  | :-p | ||||||
|  | :O | ||||||
|  | :-O | ||||||
|  | :o | ||||||
|  | :-o | ||||||
|  | :0 | ||||||
|  | :-0 | ||||||
|  | :() | ||||||
|  | >:o | ||||||
|  | :* | ||||||
|  | :-* | ||||||
|  | :3 | ||||||
|  | :-3 | ||||||
|  | =3 | ||||||
|  | :> | ||||||
|  | :-> | ||||||
|  | :X | ||||||
|  | :-X | ||||||
|  | :x | ||||||
|  | :-x | ||||||
|  | :D | ||||||
|  | :-D | ||||||
|  | ;D | ||||||
|  | ;-D | ||||||
|  | =D | ||||||
|  | xD | ||||||
|  | XD | ||||||
|  | xDD | ||||||
|  | XDD | ||||||
|  | 8D | ||||||
|  | 8-D | ||||||
|  | 
 | ||||||
|  | ^_^ | ||||||
|  | ^__^ | ||||||
|  | ^___^ | ||||||
|  | >.< | ||||||
|  | >.> | ||||||
|  | <.< | ||||||
|  | ._. | ||||||
|  | ;_; | ||||||
|  | -_- | ||||||
|  | -__- | ||||||
|  | v.v | ||||||
|  | V.V | ||||||
|  | v_v | ||||||
|  | V_V | ||||||
|  | o_o | ||||||
|  | o_O | ||||||
|  | O_o | ||||||
|  | O_O | ||||||
|  | 0_o | ||||||
|  | o_0 | ||||||
|  | 0_0 | ||||||
|  | o.O | ||||||
|  | O.o | ||||||
|  | O.O | ||||||
|  | o.o | ||||||
|  | 0.0 | ||||||
|  | o.0 | ||||||
|  | 0.o | ||||||
|  | @_@ | ||||||
|  | <3 | ||||||
|  | <33 | ||||||
|  | <333 | ||||||
|  | </3 | ||||||
|  | (^_^) | ||||||
|  | (-_-) | ||||||
|  | (._.) | ||||||
|  | (>_<) | ||||||
|  | (*_*) | ||||||
|  | (¬_¬) | ||||||
|  | ಠ_ಠ | ||||||
|  | ಠ︵ಠ | ||||||
|  | (ಠ_ಠ) | ||||||
|  | ¯\(ツ)/¯ | ||||||
|  | (╯°□°)╯︵┻━┻ | ||||||
|  | ><(((*> | ||||||
|  | """.split()) | ||||||
|  | 
 | ||||||
|  | 
 | ||||||
|  | for orth in emoticons: | ||||||
|  |     BASE_EXCEPTIONS[orth] = [{ORTH: orth}] | ||||||
|  |  | ||||||
		Loading…
	
		Reference in New Issue
	
	Block a user