mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-14 13:47:13 +03:00
27160b1516
This jargon is not offencive but emotionally colored as funny due to its deviation from the norm for various reasons: immitating a dialect, deliberately wrong spelling emphasizing its low colloquial nature, obsolete form, foreign borrowing with native flections, etc. Dmitry Briukhanov, Linguist & Pythonist
37 lines
897 B
Python
37 lines
897 B
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
_exc = {
|
|
# Slang
|
|
'прив': 'привет',
|
|
'дарова': 'привет',
|
|
'дак': 'так',
|
|
'дык': 'так',
|
|
'здарова': 'привет',
|
|
'пакедава': 'пока',
|
|
'пакедаво': 'пока',
|
|
'ща': 'сейчас',
|
|
'спс': 'спасибо',
|
|
'пжлст': 'пожалуйста',
|
|
'плиз': 'пожалуйста',
|
|
'ладненько': 'ладно',
|
|
'лады': 'ладно',
|
|
'лан': 'ладно',
|
|
'ясн': 'ясно',
|
|
'всм': 'всмысле',
|
|
'хош': 'хочешь',
|
|
'хаюшки': 'привет',
|
|
'оч': 'очень',
|
|
'че': 'что',
|
|
'чо': 'что',
|
|
'шо': 'что'
|
|
}
|
|
|
|
|
|
NORM_EXCEPTIONS = {}
|
|
|
|
for string, norm in _exc.items():
|
|
NORM_EXCEPTIONS[string] = norm
|
|
NORM_EXCEPTIONS[string.title()] = norm
|