spaCy/spacy/lang/th/norm_exceptions.py

115 lines
5.0 KiB
Python
Raw Normal View History

# coding: utf8
from __future__ import unicode_literals
_exc = {
# Conjugation and Diversion invalid to Tonal form (āļœāļąāļ™āļ­āļąāļāļĐāļĢāđāļĨāļ°āđ€āļŠāļĩāļĒāļ‡āđ„āļĄāđˆāļ•āļĢāļ‡āļāļąāļšāļĢāļđāļ›āļ§āļĢāļĢāļ“āļĒāļļāļāļ•āđŒ)
"āļŠāļ™āļļāđŠāļāđ€āļāļ­āļĢāđŒ": "āļŠāļ™āļļāļāđ€āļāļ­āļĢāđŒ",
"āđ‚āļ™āđ‰āļ•": "āđ‚āļ™āđ‰āļ•",
# Misspelled because of being lazy or hustle (āļŠāļ°āļāļ”āļœāļīāļ”āđ€āļžāļĢāļēāļ°āļ‚āļĩāđ‰āđ€āļāļĩāļĒāļˆāļžāļīāļĄāļžāđŒ āļŦāļĢāļ·āļ­āđ€āļĢāđˆāļ‡āļĢāļĩāļš)
"āđ‚āļ—āļŠāļąāļš": "āđ‚āļ—āļĢāļĻāļąāļžāļ—āđŒ",
"āļžāļļāđˆāļ‡āļ™āļĩāđ‰": "āļžāļĢāļļāđˆāļ‡āļ™āļĩāđ‰",
# Strange (āđƒāļŦāđ‰āļ”āļđāđāļ›āļĨāļāļ•āļē)
"āļŠāļ°āļĄāļ°": "āđƒāļŠāđˆāđ„āļŦāļĄ",
"āļŠāļīāļĄāļī": "āđƒāļŠāđˆāđ„āļŦāļĄ",
"āļŠāļ°": "āđƒāļŠāđˆāđ„āļŦāļĄ",
"āļŠāđˆāļēāļĒāļĄāļ°": "āđƒāļŠāđˆāđ„āļŦāļĄ",
"āļ›āđˆāļēāļ§": "āđ€āļ›āļĨāđˆāļē",
"āļ›āđˆāļ°": "āđ€āļ›āļĨāđˆāļē",
"āļ›āļĨāđˆāļēāļ§": "āđ€āļ›āļĨāđˆāļē",
"āļ„āļąāļĒ": "āđƒāļ„āļĢ",
"āđ„āļ„": "āđƒāļ„āļĢ",
"āļ„āļĢāļēāļĒ": "āđƒāļ„āļĢ",
"āđ€āļ•āļ‡": "āļ•āļąāļ§āđ€āļ­āļ‡",
"āļ•āļ°āđ€āļ­āļ‡": "āļ•āļąāļ§āđ€āļ­āļ‡",
"āļĢāļķ": "āļŦāļĢāļ·āļ­",
"āđ€āļŦāļĢāļ­": "āļŦāļĢāļ·āļ­",
"āļŦāļĢāļē": "āļŦāļĢāļ·āļ­",
"āļŦāļĢāļ­": "āļŦāļĢāļ·āļ­",
"āļŠāļąāđ‰āļ™": "āļ‰āļąāļ™",
"āļŠāļąāđ‰āļĨ": "āļ‰āļąāļ™",
"āļŠāđ‰āļēāļ™": "āļ‰āļąāļ™",
"āđ€āļ—āļ­": "āđ€āļ˜āļ­",
"āđ€āļ—āļ­āļĢāđŒ": "āđ€āļ˜āļ­",
"āđ€āļ—āļ­āļ§āđŒ": "āđ€āļ˜āļ­",
"āđāļāļĢ": "āđāļ",
"āļ›āđ‹āļĄ": "āļœāļĄ",
"āļšāđˆāļ­āļ‡āļ•āļ‡": "āļšāļ­āļāļ•āļĢāļ‡āđ†",
"āļ–āđˆāļēāļĄāļ•āļ‡": "āļ–āļēāļĄāļ•āļĢāļ‡āđ†",
"āļ•āđˆāļ­āļĄāļ•āļ‡": "āļ•āļ­āļšāļ•āļĢāļ‡āđ†",
"āđ€āļžāļīāđˆāļĨ": "āđ€āļžāļ·āđˆāļ­āļ™",
"āļˆāļ­āļšāļ­": "āļˆāļ­āļšāļ­",
"āļ”āļąāđ‰āļĒ": "āđ„āļ”āđ‰",
"āļ‚āļ­āļšāļ„āļļāļ‡": "āļ‚āļ­āļšāļ„āļļāļ“",
"āļĒāļąāļ‡āļ‡āļąāļĒ": "āļĒāļąāļ‡āđ„āļ‡",
"Inw": "āđ€āļ—āļž",
"uou": "āļ™āļ­āļ™",
"LāļāļĢāļĩeu": "āđ€āļāļĢāļĩāļĒāļ™",
# Misspelled to express emotions (āļ„āļģāļ—āļĩāđˆāļŠāļ°āļāļ”āļœāļīāļ”āđ€āļžāļ·āđˆāļ­āđāļŠāļ”āļ‡āļ­āļēāļĢāļĄāļ“āđŒ)
"āđ€āļ›āļ‡āļĢāļēāļĒ": "āđ€āļ›āđ‡āļ™āļ­āļ°āđ„āļĢ",
"āđ€āļ›āļ™āļĢāļąāļĒ": "āđ€āļ›āđ‡āļ™āļ­āļ°āđ„āļĢ",
"āđ€āļ›āļ‡āļĢāļąāļĒ": "āđ€āļ›āđ‡āļ™āļ­āļ°āđ„āļĢ",
"āđ€āļ›āđ‡āļ™āļ­āļąāļĨāđ„āļĨ": "āđ€āļ›āđ‡āļ™āļ­āļ°āđ„āļĢ",
"āļ—āļēāļĄāļĄāļēāļĒ": "āļ—āļģāđ„āļĄ",
"āļ—āļēāļĄāļĄāļąāļĒ": "āļ—āļģāđ„āļĄ",
"āļˆāļąāļ‡āļĢāļļāļĒ": "āļˆāļąāļ‡āđ€āļĨāļĒ",
"āļˆāļąāļ‡āđ€āļĒāļĒ": "āļˆāļąāļ‡āđ€āļĨāļĒ",
"āļˆāļļāļ‡āđ€āļšāļĒ": "āļˆāļąāļ‡āđ€āļĨāļĒ",
"āđ„āļĄāđˆāļĢāļđāđ‰": "āļĄāļ°āļĢāļļ",
"āđ€āļŪāđˆāļĒ": "āđ€āļŪāđ‰āļĒ",
"āđ€āļŦāđ‰āļĒ": "āđ€āļŪāđ‰āļĒ",
"āļ™āđˆāļēāļĢāđ‡āļ­āļ„": "āļ™āđˆāļēāļĢāļąāļ",
"āļ™āđˆāļēāļĢāđŠāļēāļ": "āļ™āđˆāļēāļĢāļąāļ",
"āļ•āļąāđ‰āļĨāļĨāđŠāļēāļ": "āļ™āđˆāļēāļĢāļąāļ",
"āļ„āļ·āļ­āļĢāđŠāļ°": "āļ„āļ·āļ­āļ­āļ°āđ„āļĢ",
"āđ‚āļ­āļ›āđˆāļ°": "āđ‚āļ­āđ€āļ„āļŦāļĢāļ·āļ­āđ€āļ›āļĨāđˆāļē",
"āļ™āđˆāļēāļĄāļ„āļēāļ™": "āļ™āđˆāļēāļĢāļģāļ„āļēāļ",
"āļ™āđˆāļēāļĄāļŠāļēāļĢ": "āļ™āđˆāļēāļŠāļ‡āļŠāļēāļĢ",
"āļ§āļ‡āļ§āļēāļĢ": "āļŠāļ‡āļŠāļēāļĢ",
"āļšāļąāļšāļ§āđˆāļē": "āđāļšāļšāļ§āđˆāļē",
"āļ­āļąāļĨāđ„āļĨ": "āļ­āļ°āđ„āļĢ",
"āļ­āļīāļˆ": "āļ­āļīāļˆāļ‰āļē",
# Reduce rough words or Avoid to software filter (āļ„āļģāļ—āļĩāđˆāļŠāļ°āļāļ”āļœāļīāļ”āđ€āļžāļ·āđˆāļ­āļĨāļ”āļ„āļ§āļēāļĄāļŦāļĒāļēāļšāļ‚āļ­āļ‡āļ„āļģ āļŦāļĢāļ·āļ­āļ­āļēāļˆāđƒāļŠāđ‰āļŦāļĨāļĩāļāđ€āļĨāļĩāđˆāļĒāļ‡āļāļēāļĢāļāļĢāļ­āļ‡āļ„āļģāļŦāļĒāļēāļšāļ‚āļ­āļ‡āļ‹āļ­āļŸāļ•āđŒāđāļ§āļĢāđŒ)
"āļāļĢāļđ": "āļāļđ",
"āļāļļ": "āļāļđ",
"āļāļĢāļļ": "āļāļđ",
"āļ•āļđ": "āļāļđ",
"āļ•āļĢāļđ": "āļāļđ",
"āļĄāļĢāļķāļ‡": "āļĄāļķāļ‡",
"āđ€āļĄāļīāļ‡": "āļĄāļķāļ‡",
"āļĄāļ·āļ‡": "āļĄāļķāļ‡",
"āļĄāļļāļ‡": "āļĄāļķāļ‡",
"āļŠāļēāļ”": "āļŠāļąāļ•āļ§āđŒ",
"āļŠāļąāļŠ": "āļŠāļąāļ•āļ§āđŒ",
"āļŠāļąāļ": "āļŠāļąāļ•āļ§āđŒ",
"āđāļŠāļĢāļ”": "āļŠāļąāļ•āļ§āđŒ",
"āđ‚āļ„āđ‚āļ•āļ°": "āđ‚āļ„āļ•āļĢ",
"āđ‚āļ„āļ”": "āđ‚āļ„āļ•āļĢ",
"āđ‚āļ„āļĢāļ•": "āđ‚āļ„āļ•āļĢ",
"āđ‚āļ„āļ•āļ°āļĢāļ°": "āđ‚āļ„āļ•āļĢ",
"āļžāđˆāļ­āļ‡": "āļžāđˆāļ­āļĄāļķāļ‡",
"āđāļĄāđˆāđ€āļĄāļīāļ‡": "āđāļĄāđˆāļĄāļķāļ‡",
"āđ€āļŠāļĩāđˆāļĒ": "āđ€āļŦāļĩāđ‰āļĒ",
# Imitate words (āļ„āļģāđ€āļĨāļĩāļĒāļ™āđ€āļŠāļĩāļĒāļ‡ āđ‚āļ”āļĒāļŠāđˆāļ§āļ™āđƒāļŦāļāđˆāļˆāļ°āđ€āļžāļīāđˆāļĄāļ—āļąāļ“āļ‘āļ†āļēāļ• āļŦāļĢāļ·āļ­āļ‹āđ‰āļģāļ•āļąāļ§āļ­āļąāļāļĐāļĢ)
"āđāļ­āļĢāđŠāļĒāļĒ": "āļ­āđŠāļēāļĒ",
"āļ­āļĢāđŠāļēāļĒāļĒāļĒ": "āļ­āđŠāļēāļĒ",
"āļĄāļąāļ™āļŠāđŒ": "āļĄāļąāļ™",
"āļ§āļđāđŠāļ§āļ§āļ§āļ§āļ§āļ§āļ§āļ§āđŒ": "āļ§āļđāđ‰",
# Acronym (āđāļšāļšāļ„āļģāļĒāđˆāļ­)
"āļŦāļĄāļēāļĨāļąāļĒ": "āļĄāļŦāļēāļ§āļīāļ—āļĒāļēāļĨāļąāļĒ",
"āļ§āļīāļ”āļ§āļ°": "āļ§āļīāļĻāļ§āļ°",
"āļŠāļīāļ™āļŠāļēāļ” ": "āļĻāļīāļĨāļ›āļĻāļēāļŠāļ•āļĢāđŒ",
"āļŠāļīāļ™āļāļģ ": "āļĻāļīāļĨāļ›āļāļĢāļĢāļĄāļĻāļēāļŠāļ•āļĢāđŒ",
"āđ€āļŠāļēāļĢāļĩāļĒāđŒ ": "āļ­āļ™āļļāđ€āļŠāļēāļ§āļĢāļĩāļĒāđŒāļŠāļąāļĒāļŠāļĄāļĢāļ āļđāļĄāļī",
"āđ€āļĄāļāļē ": "āļ­āđ€āļĄāļĢāļīāļāļē",
"āļĄāļ­āđ„āļ‹āļ„āđŒ ": "āļĄāļ­āđ€āļ•āļ­āļĢāđŒāđ„āļ‹āļ„āđŒ",
}
NORM_EXCEPTIONS = {}
for string, norm in _exc.items():
NORM_EXCEPTIONS[string] = norm
NORM_EXCEPTIONS[string.title()] = norm