mirror of
https://github.com/explosion/spaCy.git
synced 2024-11-15 06:09:01 +03:00
1533 lines
19 KiB
Python
1533 lines
19 KiB
Python
from ...symbols import NORM, ORTH
|
|
from ...util import update_exc
|
|
from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
|
from ._tokenizer_exceptions_list import MS_BASE_EXCEPTIONS
|
|
|
|
# Daftar singkatan dan Akronim dari:
|
|
# https://ms.wiktionary.org/wiki/Wiktionary:Senarai_akronim_dan_singkatan
|
|
|
|
_exc = {}
|
|
|
|
for orth in MS_BASE_EXCEPTIONS:
|
|
_exc[orth] = [{ORTH: orth}]
|
|
orth_title = orth.title()
|
|
_exc[orth_title] = [{ORTH: orth_title}]
|
|
orth_caps = orth.upper()
|
|
_exc[orth_caps] = [{ORTH: orth_caps}]
|
|
orth_lower = orth.lower()
|
|
_exc[orth_lower] = [{ORTH: orth_lower}]
|
|
orth_first_upper = orth[0].upper() + orth[1:]
|
|
_exc[orth_first_upper] = [{ORTH: orth_first_upper}]
|
|
if "-" in orth:
|
|
orth_title = "-".join([part.title() for part in orth.split("-")])
|
|
_exc[orth_title] = [{ORTH: orth_title}]
|
|
orth_caps = "-".join([part.upper() for part in orth.split("-")])
|
|
_exc[orth_caps] = [{ORTH: orth_caps}]
|
|
|
|
for exc_data in [
|
|
{ORTH: "Jan.", NORM: "Januari"},
|
|
{ORTH: "Feb.", NORM: "Februari"},
|
|
{ORTH: "Mac.", NORM: "Mac"},
|
|
{ORTH: "Apr.", NORM: "April"},
|
|
{ORTH: "Jun.", NORM: "Jun"},
|
|
{ORTH: "Jul.", NORM: "Julai"},
|
|
{ORTH: "Ogos.", NORM: "Ogos"},
|
|
{ORTH: "Sep.", NORM: "September"},
|
|
{ORTH: "Okt.", NORM: "Oktober"},
|
|
{ORTH: "Nov.", NORM: "November"},
|
|
{ORTH: "Dis.", NORM: "Disember"},
|
|
]:
|
|
_exc[exc_data[ORTH]] = [exc_data]
|
|
|
|
_other_exc = {
|
|
"do'a": [{ORTH: "do'a", NORM: "doa"}],
|
|
"jum'at": [{ORTH: "jum'at", NORM: "Jumat"}],
|
|
"Jum'at": [{ORTH: "Jum'at", NORM: "Jumat"}],
|
|
"la'nat": [{ORTH: "la'nat", NORM: "laknat"}],
|
|
"ma'af": [{ORTH: "ma'af", NORM: "maaf"}],
|
|
"mu'jizat": [{ORTH: "mu'jizat", NORM: "mukjizat"}],
|
|
"Mu'jizat": [{ORTH: "Mu'jizat", NORM: "mukjizat"}],
|
|
"ni'mat": [{ORTH: "ni'mat", NORM: "nikmat"}],
|
|
"raka'at": [{ORTH: "raka'at", NORM: "rakaat"}],
|
|
"ta'at": [{ORTH: "ta'at", NORM: "taat"}],
|
|
}
|
|
|
|
_exc.update(_other_exc)
|
|
|
|
for orth in [
|
|
"1 Kor.",
|
|
"1 Ptr.",
|
|
"1 Raj.",
|
|
"1 Sam.",
|
|
"1 Taw.",
|
|
"1 Tes.",
|
|
"1 Tim.",
|
|
"1 Yoh.",
|
|
"1Ch.",
|
|
"1Co.",
|
|
"1Jo.",
|
|
"1Ki.",
|
|
"1Pe.",
|
|
"1Sa.",
|
|
"1Th.",
|
|
"1Ti.",
|
|
"2 Kor.",
|
|
"2 Ptr.",
|
|
"2 Raj.",
|
|
"2 Sam.",
|
|
"2 Taw.",
|
|
"2 Tes.",
|
|
"2 Tim.",
|
|
"2 Yoh.",
|
|
"2Ch.",
|
|
"2Co.",
|
|
"2Jo.",
|
|
"2Ki.",
|
|
"2Pe.",
|
|
"2Sa.",
|
|
"2Th.",
|
|
"2Ti.",
|
|
"3 Yoh.",
|
|
"3D",
|
|
"3F",
|
|
"3Jo.",
|
|
"3M",
|
|
"8MP",
|
|
"AA",
|
|
"AAAAAA",
|
|
"AB",
|
|
"Abd.",
|
|
"ABC",
|
|
"ABIM",
|
|
"ABM",
|
|
"ABMI",
|
|
"ABS",
|
|
"AC",
|
|
"Ac",
|
|
"ACAPLPL",
|
|
"Act.",
|
|
"AD",
|
|
"AD LIB",
|
|
"ADAM",
|
|
"ADB",
|
|
"ADD",
|
|
"ADIL",
|
|
"ADN",
|
|
"ADR",
|
|
"ADRI",
|
|
"ADSL",
|
|
"ADUN",
|
|
"AFAS",
|
|
"AFTA",
|
|
"Ag",
|
|
"AGMARIS",
|
|
"AH",
|
|
"AI",
|
|
"AIA",
|
|
"AIDS",
|
|
"AIJV",
|
|
"AIM",
|
|
"a/k",
|
|
"ak",
|
|
"AKN",
|
|
"Al",
|
|
"a/l",
|
|
"AM",
|
|
"Am",
|
|
"Am.",
|
|
"AMN",
|
|
"Amo.",
|
|
"AMPS",
|
|
"Ams.",
|
|
"AMWA",
|
|
"AN",
|
|
"a.n.",
|
|
"ANGKASA",
|
|
"ANM",
|
|
"ANSI",
|
|
"Ant.",
|
|
"AOL",
|
|
"AP",
|
|
"a/p",
|
|
"APD",
|
|
"APEC",
|
|
"API",
|
|
"APIK",
|
|
"APM",
|
|
"APN",
|
|
"APP",
|
|
"Apr.",
|
|
"APRI",
|
|
"Ar",
|
|
"Ar.",
|
|
"ark.",
|
|
"A.S.",
|
|
"As",
|
|
"a.s.",
|
|
"ASA",
|
|
"ASAS 50",
|
|
"ASB",
|
|
"ASCII",
|
|
"ASEAN",
|
|
"ASEAN+3",
|
|
"ASEM",
|
|
"a.s.f.",
|
|
"ASN",
|
|
"a.s.o.",
|
|
"ASP",
|
|
"Ast.",
|
|
"A.T.",
|
|
"At",
|
|
"ATM",
|
|
"a.t.r.",
|
|
"ATUR",
|
|
"Au",
|
|
"AURI",
|
|
"Aug.",
|
|
"AWOL",
|
|
"Ayb.",
|
|
"B",
|
|
"BA",
|
|
"Ba",
|
|
"BAC",
|
|
"BAFIA",
|
|
"BAM",
|
|
"BANANA",
|
|
"BAPP",
|
|
"BASF",
|
|
"BATA",
|
|
"BB",
|
|
"BBC",
|
|
"BBE",
|
|
"BBS",
|
|
"BC",
|
|
"BCG",
|
|
"BCIC",
|
|
"b.d.",
|
|
"BDSSHAM",
|
|
"Be",
|
|
"BEER",
|
|
"BERNAMA",
|
|
"Bh",
|
|
"b.h.",
|
|
"Bhd.",
|
|
"Bi",
|
|
"BIDS",
|
|
"Bil.",
|
|
"bil.",
|
|
"BIMP-EAGA",
|
|
"Bio.",
|
|
"BIOS",
|
|
"BITMB",
|
|
"BJ",
|
|
"Bk",
|
|
"b.k.",
|
|
"BKAL",
|
|
"bkn.",
|
|
"BKP",
|
|
"BL",
|
|
"BLR",
|
|
"BM",
|
|
"BMI",
|
|
"BMW",
|
|
"BN",
|
|
"BNM",
|
|
"BO",
|
|
"BOJ",
|
|
"BOO",
|
|
"BOP",
|
|
"BOT",
|
|
"BP",
|
|
"b.p.",
|
|
"BPA",
|
|
"BPAs",
|
|
"bpd.",
|
|
"BPIMB",
|
|
"BPM",
|
|
"BPO",
|
|
"BPPH",
|
|
"Br",
|
|
"Br.",
|
|
"BSA",
|
|
"B.Sc.",
|
|
"B.Sh.",
|
|
"b.s.j.",
|
|
"BSN",
|
|
"Bt.",
|
|
"bt.",
|
|
"BWT",
|
|
"BYOB",
|
|
"C",
|
|
"C.",
|
|
"C/E",
|
|
"Ca",
|
|
"CAAM",
|
|
"CAD",
|
|
"CAM",
|
|
"CATV",
|
|
"CBS",
|
|
"CBT",
|
|
"CC",
|
|
"CCD",
|
|
"CCM",
|
|
"CCR",
|
|
"cct-km",
|
|
"CCTV",
|
|
"CCU",
|
|
"CD",
|
|
"Cd",
|
|
"CD-ROM",
|
|
"CD-RW",
|
|
"CDRC",
|
|
"Ce",
|
|
"CEO",
|
|
"CEPT",
|
|
"Cetak",
|
|
"Cf",
|
|
"CFO",
|
|
"CFTC",
|
|
"CGC",
|
|
"CGI",
|
|
"CH",
|
|
"CIA",
|
|
"CIAST",
|
|
"CID",
|
|
"CIDB",
|
|
"CIQ",
|
|
"CKD",
|
|
"CL",
|
|
"Cl",
|
|
"c.l.",
|
|
"CLI",
|
|
"CLOB",
|
|
"CM",
|
|
"Cm",
|
|
"cm.",
|
|
"CMAG",
|
|
"CMI",
|
|
"CMP",
|
|
"CNN",
|
|
"Co",
|
|
"COD",
|
|
"Col.",
|
|
"COLA",
|
|
"COMDEX",
|
|
"CP",
|
|
"CPI",
|
|
"CPO",
|
|
"CPR",
|
|
"CPU",
|
|
"Cr",
|
|
"CRDF",
|
|
"Cs",
|
|
"CST",
|
|
"CT",
|
|
"CTIP",
|
|
"CTRM",
|
|
"Cu",
|
|
"CUEPACS",
|
|
"D-8",
|
|
"d/a",
|
|
"DAGS",
|
|
"Dan.",
|
|
"DANCED",
|
|
"DAP",
|
|
"DARA",
|
|
"Db",
|
|
"DBKL",
|
|
"DBP",
|
|
"DBR",
|
|
"DC",
|
|
"DDA",
|
|
"DDT",
|
|
"DEB",
|
|
"Dec.",
|
|
"Deu.",
|
|
"DFIs",
|
|
"dgn.",
|
|
"DHL",
|
|
"DIBML",
|
|
"DIN",
|
|
"Dis.",
|
|
"DJ",
|
|
"d.l.l.",
|
|
"dlm.",
|
|
"dng.",
|
|
"DNS",
|
|
"DO",
|
|
"DOA",
|
|
"DOE",
|
|
"DOF",
|
|
"DOSH",
|
|
"doz.",
|
|
"DPPS",
|
|
"Dr.",
|
|
"dr.",
|
|
"drp.",
|
|
"drpd.",
|
|
"Ds",
|
|
"d.sb.",
|
|
"d.st.",
|
|
"DSTN2",
|
|
"Dt.",
|
|
"DTAs",
|
|
"DTMF",
|
|
"DTP",
|
|
"DTV",
|
|
"DUBES",
|
|
"DUNHILL",
|
|
"DV8",
|
|
"DVD",
|
|
"DVE",
|
|
"DVS",
|
|
"dw.t.",
|
|
"Dy",
|
|
"DYMM",
|
|
"E",
|
|
"E-Commerce",
|
|
"E-Dagang",
|
|
"E&E",
|
|
"E-Faraid",
|
|
"E-Government",
|
|
"E-Kerajaan",
|
|
"E-Mail",
|
|
"E-Services",
|
|
"E-Village",
|
|
"E-Zine",
|
|
"EALAF",
|
|
"EBI",
|
|
"EBP",
|
|
"EC",
|
|
"ECAFE",
|
|
"Ecc.",
|
|
"ECI",
|
|
"ECM",
|
|
"ECOSOC",
|
|
"ECP",
|
|
"ECR",
|
|
"EDI",
|
|
"EE",
|
|
"EEC",
|
|
"Ef.",
|
|
"EG",
|
|
"Eko.",
|
|
"EKS",
|
|
"ELWS",
|
|
"ELX",
|
|
"EMI",
|
|
"EMUs",
|
|
"En.",
|
|
"EP",
|
|
"EPF",
|
|
"Eph.",
|
|
"EPP",
|
|
"EPS",
|
|
"EPU",
|
|
"ER",
|
|
"Er",
|
|
"ERL",
|
|
"ERT",
|
|
"Es",
|
|
"ESCAP",
|
|
"ESOS",
|
|
"ESP",
|
|
"EST",
|
|
"Est.",
|
|
"ET",
|
|
"ETA",
|
|
"ETACS",
|
|
"ETC",
|
|
"ETD",
|
|
"EU",
|
|
"Eu",
|
|
"EVIAN",
|
|
"Exim Bank",
|
|
"Exo.",
|
|
"Eze.",
|
|
"Ezr.",
|
|
"F",
|
|
"FAM",
|
|
"FAMA",
|
|
"FAO",
|
|
"FAQ",
|
|
"FAX",
|
|
"FBI",
|
|
"FC",
|
|
"FCA",
|
|
"FCC",
|
|
"FDI",
|
|
"FE",
|
|
"Fe",
|
|
"f.e.",
|
|
"Feb.",
|
|
"FELCRA",
|
|
"FELDA",
|
|
"FI",
|
|
"FIA 1993",
|
|
"FIAT",
|
|
"FIC",
|
|
"FIDA",
|
|
"FIFA",
|
|
"FIMA",
|
|
"Fiz.",
|
|
"Flm.",
|
|
"Flp.",
|
|
"FM",
|
|
"Fm",
|
|
"FMUTM",
|
|
"FO",
|
|
"FOA",
|
|
"FOB",
|
|
"FOC",
|
|
"FOMCA",
|
|
"FORD",
|
|
"Fr",
|
|
"FRIM",
|
|
"FRTI",
|
|
"FSMP",
|
|
"FTA",
|
|
"FTE",
|
|
"FTP",
|
|
"G",
|
|
"g.",
|
|
"G15",
|
|
"G77",
|
|
"Ga",
|
|
"GAC",
|
|
"GACM",
|
|
"Gal.",
|
|
"GAPENA",
|
|
"GATS",
|
|
"GATT",
|
|
"GB",
|
|
"Gbps.",
|
|
"Gd",
|
|
"GDP",
|
|
"Ge",
|
|
"GEC",
|
|
"Gen.",
|
|
"Geo.",
|
|
"Geog.",
|
|
"Gerakan",
|
|
"GH",
|
|
"GIF",
|
|
"GII",
|
|
"GIS",
|
|
"GITIC",
|
|
"GITN",
|
|
"GJ",
|
|
"GLCs",
|
|
"GM",
|
|
"GMBH",
|
|
"GMI",
|
|
"GMT",
|
|
"GNP",
|
|
"GNS",
|
|
"GOLD",
|
|
"GP",
|
|
"GPC",
|
|
"GPIM",
|
|
"GPMS",
|
|
"GPO",
|
|
"GPP",
|
|
"GPS",
|
|
"GRO",
|
|
"GRS",
|
|
"GSMC",
|
|
"GST",
|
|
"GTZ",
|
|
"GUI",
|
|
"GWh.",
|
|
"H",
|
|
"Ha",
|
|
"Hab.",
|
|
"Hag.",
|
|
"Hak.",
|
|
"ham",
|
|
"hb.",
|
|
"HCI",
|
|
"HDTV",
|
|
"He",
|
|
"Heb.",
|
|
"Hf",
|
|
"Hg",
|
|
"HI-FI",
|
|
"HIS",
|
|
"HIV",
|
|
"Hj.",
|
|
"HMS",
|
|
"Ho",
|
|
"Hos.",
|
|
"HP",
|
|
"HRDC",
|
|
"HRDF",
|
|
"HRMIS",
|
|
"Hs",
|
|
"Hut.",
|
|
"I",
|
|
"I/O",
|
|
"IA",
|
|
"IAA",
|
|
"IADPs",
|
|
"IB",
|
|
"i.b.",
|
|
"IBA",
|
|
"IBFIM",
|
|
"IBG",
|
|
"Ibr.",
|
|
"IBRD",
|
|
"IBS",
|
|
"IC",
|
|
"ICA",
|
|
"ICBM",
|
|
"ICFM",
|
|
"ICI",
|
|
"ICM",
|
|
"ICOR",
|
|
"ICP",
|
|
"ICT",
|
|
"ICU",
|
|
"ID",
|
|
"Id.",
|
|
"IDB",
|
|
"IDFR",
|
|
"IE",
|
|
"i.e.",
|
|
"IFSB",
|
|
"IGAs",
|
|
"IGS",
|
|
"IHP",
|
|
"IHPG",
|
|
"IIM",
|
|
"IINA",
|
|
"IKKL",
|
|
"IKP",
|
|
"IKPH",
|
|
"IKS",
|
|
"Im.",
|
|
"IMD",
|
|
"IMF",
|
|
"IMP2",
|
|
"IMR",
|
|
"IMS-GT",
|
|
"IMT-GT",
|
|
"In",
|
|
"in.",
|
|
"INFRA",
|
|
"INSEP",
|
|
"INSPEN",
|
|
"INTAN",
|
|
"IOFC",
|
|
"IOU",
|
|
"IP",
|
|
"IPA",
|
|
"IPBA",
|
|
"IPCs",
|
|
"IPEBP",
|
|
"IPI",
|
|
"IPKIM",
|
|
"IPKPM",
|
|
"IPO",
|
|
"IPP",
|
|
"IPPM",
|
|
"IPPPM",
|
|
"i.pt.",
|
|
"IPTAR",
|
|
"IPTNM",
|
|
"IQR",
|
|
"Ir",
|
|
"IRA",
|
|
"IRPA",
|
|
"IRS",
|
|
"i.s.",
|
|
"ISA",
|
|
"Isa.",
|
|
"ISDN",
|
|
"ISMM",
|
|
"ISO",
|
|
"ISP",
|
|
"ist.",
|
|
"IT",
|
|
"i.t.",
|
|
"ITA",
|
|
"ITAF",
|
|
"ITEX",
|
|
"ITK",
|
|
"ITM",
|
|
"ITO",
|
|
"ITRCo",
|
|
"ITTA",
|
|
"ITU",
|
|
"JAK",
|
|
"JAKIM",
|
|
"Jam.",
|
|
"Jan.",
|
|
"Jb.",
|
|
"JBIC",
|
|
"JD",
|
|
"JDA",
|
|
"Jdg.",
|
|
"Jer.",
|
|
"Jh.",
|
|
"JICA",
|
|
"JJ",
|
|
"Jk.",
|
|
"JKKK",
|
|
"jkps.",
|
|
"JKR",
|
|
"JMTI",
|
|
"JOA",
|
|
"Joe.",
|
|
"Joh.",
|
|
"Jon.",
|
|
"Jos.",
|
|
"JP",
|
|
"JPA",
|
|
"JPEG",
|
|
"JPH",
|
|
"JPJ",
|
|
"JPSHK",
|
|
"JPS",
|
|
"JPT",
|
|
"JRDA",
|
|
"JSM",
|
|
"JT",
|
|
"Jud.",
|
|
"Jul.",
|
|
"Jun.",
|
|
"JVC",
|
|
"Jw.",
|
|
"K",
|
|
"K-Economy",
|
|
"KADA",
|
|
"KBE",
|
|
"KBIA",
|
|
"KBPA",
|
|
"KBSM",
|
|
"KD",
|
|
"Kd.",
|
|
"KDI",
|
|
"KDN",
|
|
"KDNK",
|
|
"KE",
|
|
"KEAP",
|
|
"Kej.",
|
|
"Kel.",
|
|
"KEM",
|
|
"KEMLU",
|
|
"kep.",
|
|
"Kg.",
|
|
"kg.",
|
|
"KGB",
|
|
"KGK",
|
|
"KH",
|
|
"ki.",
|
|
"Kid.",
|
|
"KIK",
|
|
"KIKMTT",
|
|
"KIM",
|
|
"Kim.",
|
|
"Kis.",
|
|
"KIX",
|
|
"KKGSK",
|
|
"KKK",
|
|
"KKPPA",
|
|
"KL",
|
|
"Kl.",
|
|
"KLCI",
|
|
"KLIA",
|
|
"KLIBOR",
|
|
"KLIM",
|
|
"KLM",
|
|
"KLSE",
|
|
"KM",
|
|
"KMM",
|
|
"KNK",
|
|
"KO",
|
|
"Kol.",
|
|
"Kom.",
|
|
"Komp.",
|
|
"KOMSAS",
|
|
"KPAI",
|
|
"KPB",
|
|
"KPBA",
|
|
"KPC",
|
|
"kpd.",
|
|
"KPE",
|
|
"KPIs",
|
|
"KPPL",
|
|
"KPPMS",
|
|
"KPWM",
|
|
"Kr",
|
|
"KRM",
|
|
"KSTI",
|
|
"KT",
|
|
"KTA",
|
|
"KTABKL",
|
|
"KTM",
|
|
"KTMB",
|
|
"kV",
|
|
"kW",
|
|
"kWh",
|
|
"kWj",
|
|
"KWSP",
|
|
"LA",
|
|
"La",
|
|
"LABOR",
|
|
"Lam.",
|
|
"LAN",
|
|
"LAPD",
|
|
"LASER",
|
|
"LAX",
|
|
"lb.",
|
|
"LC",
|
|
"LCD",
|
|
"LCHRF",
|
|
"LCLY",
|
|
"LED",
|
|
"Lev.",
|
|
"LFPR",
|
|
"LFS",
|
|
"LFX",
|
|
"LGM",
|
|
"Li",
|
|
"LID",
|
|
"Lin.",
|
|
"LKN",
|
|
"LKPM",
|
|
"LKPP",
|
|
"LKTP",
|
|
"LKWJ",
|
|
"LLB",
|
|
"LLC",
|
|
"LLN",
|
|
"LLS",
|
|
"LMSM",
|
|
"LNG",
|
|
"LOA",
|
|
"LOBATA",
|
|
"LOFSA",
|
|
"LPG",
|
|
"LPIP",
|
|
"LPKI",
|
|
"LPKLPL",
|
|
"LPKN",
|
|
"LPN",
|
|
"LPP",
|
|
"LPPK",
|
|
"LPPM",
|
|
"LPPP",
|
|
"LPPTP",
|
|
"Lr",
|
|
"LRs",
|
|
"LRT",
|
|
"LS",
|
|
"LTAKL",
|
|
"LTD",
|
|
"LTK",
|
|
"Lu",
|
|
"LUAS",
|
|
"Luk.",
|
|
"lw.",
|
|
"lwn.",
|
|
"M\n",
|
|
"m",
|
|
"M&A",
|
|
"MAB",
|
|
"MACRES",
|
|
"MAD",
|
|
"MADA",
|
|
"MAGERAN",
|
|
"MAHA",
|
|
"MAHSURI",
|
|
"Mal.",
|
|
"MALINDO",
|
|
"MAMPU",
|
|
"Mar.",
|
|
"MARA",
|
|
"MARC",
|
|
"MARDI",
|
|
"MARLBORO",
|
|
"MAS",
|
|
"MASSA",
|
|
"MASSCORP",
|
|
"Mat.",
|
|
"MATRADE",
|
|
"MAVCAP",
|
|
"MB",
|
|
"MBA",
|
|
"MBBS",
|
|
"MBM",
|
|
"MBO",
|
|
"MBS",
|
|
"MBTU",
|
|
"MC",
|
|
"MCA",
|
|
"MCB",
|
|
"MCSL",
|
|
"MCSv5",
|
|
"MD",
|
|
"Md",
|
|
"MDB",
|
|
"MDC",
|
|
"MDG",
|
|
"MDV",
|
|
"MEASAT",
|
|
"MEATJ",
|
|
"MECIB",
|
|
"MEMO",
|
|
"MENLU",
|
|
"MEPS",
|
|
"MES",
|
|
"MESDAQ",
|
|
"METEOR",
|
|
"MFI",
|
|
"MFIs",
|
|
"MG",
|
|
"Mg",
|
|
"MGM",
|
|
"MGR",
|
|
"MGS",
|
|
"MHA",
|
|
"Mi.",
|
|
"MIA",
|
|
"MIB",
|
|
"MIC",
|
|
"Mic.",
|
|
"MICE",
|
|
"MIDA",
|
|
"MIDF",
|
|
"MIDI",
|
|
"MIG",
|
|
"MIGHT",
|
|
"MII",
|
|
"MIMOS",
|
|
"MINDEF",
|
|
"MINT",
|
|
"mis.",
|
|
"MIT",
|
|
"MITC",
|
|
"MITI",
|
|
"Ml.",
|
|
"MLNG",
|
|
"mlpd.",
|
|
"MM",
|
|
"mm",
|
|
"MMN",
|
|
"mmscfd.",
|
|
"MMU",
|
|
"MMX",
|
|
"Mn",
|
|
"Mn.",
|
|
"MNA",
|
|
"MNCs",
|
|
"MO",
|
|
"Mo",
|
|
"MOA",
|
|
"MOD",
|
|
"MODEM",
|
|
"MOE",
|
|
"MOH",
|
|
"MOSTE",
|
|
"MOSTI",
|
|
"MOU",
|
|
"MP",
|
|
"MPB",
|
|
"MPEG",
|
|
"MPOB",
|
|
"MPP",
|
|
"mppa.",
|
|
"MPPJ",
|
|
"MPS",
|
|
"MPTM",
|
|
"MR",
|
|
"m.r.",
|
|
"MRB",
|
|
"MRELB",
|
|
"Mrk.",
|
|
"MRRDB",
|
|
"MS",
|
|
"MS-DOS",
|
|
"MSC",
|
|
"MSG",
|
|
"MSM",
|
|
"Mt",
|
|
"MTC",
|
|
"MTCP",
|
|
"MTD",
|
|
"MTDC",
|
|
"MTPB",
|
|
"MTV",
|
|
"Muz.",
|
|
"MV",
|
|
"MW",
|
|
"MY",
|
|
"MyKe",
|
|
"Mzm.",
|
|
"N",
|
|
"N/A",
|
|
"Na",
|
|
"NAB",
|
|
"NACIWID",
|
|
"Nah.",
|
|
"NAP",
|
|
"NASA",
|
|
"NATO",
|
|
"NAV",
|
|
"NB",
|
|
"Nb",
|
|
"NBA",
|
|
"NBC",
|
|
"NCR",
|
|
"Nd",
|
|
"NDP",
|
|
"Ne",
|
|
"NEAC",
|
|
"NEC",
|
|
"NEF",
|
|
"Neh.",
|
|
"NEP",
|
|
"NEqO",
|
|
"NERP",
|
|
"NF",
|
|
"NFPEs",
|
|
"NG",
|
|
"NGOs",
|
|
"NGV",
|
|
"NHEF",
|
|
"NHHES",
|
|
"NHK",
|
|
"Ni",
|
|
"NIDC",
|
|
"NIH",
|
|
"NIP",
|
|
"NIPA",
|
|
"NIS",
|
|
"NISIR",
|
|
"NITA",
|
|
"NITC",
|
|
"NITP",
|
|
"NIV",
|
|
"NLAC",
|
|
"NMPBSP",
|
|
"NMU",
|
|
"No",
|
|
"No.",
|
|
"no.",
|
|
"NOSS",
|
|
"Nov.",
|
|
"Np",
|
|
"NPC",
|
|
"NPCS",
|
|
"NPL",
|
|
"NRCC",
|
|
"NRW",
|
|
"NS",
|
|
"Ns",
|
|
"NSB",
|
|
"NTA",
|
|
"NTHRDC",
|
|
"NTMP",
|
|
"NTSC",
|
|
"Num.",
|
|
"NUTF",
|
|
"NVP",
|
|
"NVTC",
|
|
"NWRC",
|
|
"O",
|
|
"Ob.",
|
|
"Oba.",
|
|
"OC",
|
|
"OCPD",
|
|
"Oct.",
|
|
"OD",
|
|
"ODA",
|
|
"OECD",
|
|
"OEM",
|
|
"Ogo.",
|
|
"OHQs",
|
|
"OIC",
|
|
"Okt.",
|
|
"OPEC",
|
|
"OPP",
|
|
"OPP3",
|
|
"OPR",
|
|
"OS",
|
|
"Os",
|
|
"OSA",
|
|
"OT",
|
|
"OUG",
|
|
"oz.",
|
|
"P",
|
|
"P&P",
|
|
"PA",
|
|
"Pa",
|
|
"PABK",
|
|
"PABX",
|
|
"PAK",
|
|
"PAKSI",
|
|
"PAL",
|
|
"PALL MALL",
|
|
"PAS",
|
|
"PATA",
|
|
"PAWS",
|
|
"Pb",
|
|
"PBA",
|
|
"PBB",
|
|
"PBM",
|
|
"PBP",
|
|
"PBSM",
|
|
"PBT",
|
|
"PC",
|
|
"PC(s)",
|
|
"PCB",
|
|
"PCIRITA",
|
|
"PCM",
|
|
"PCMCIA",
|
|
"PCN",
|
|
"PD",
|
|
"Pd",
|
|
"pd.",
|
|
"PDS",
|
|
"PE",
|
|
"PEKEMAS",
|
|
"PEMADAM",
|
|
"PENA",
|
|
"PENIS",
|
|
"PERDANA",
|
|
"PERKESO",
|
|
"PERKIM",
|
|
"PERNAS",
|
|
"PERTAMA",
|
|
"PERTIWI",
|
|
"PESAKA",
|
|
"PETA",
|
|
"PETRONAS",
|
|
"PGU",
|
|
"Ph.",
|
|
"PHD",
|
|
"Phi.",
|
|
"Phm.",
|
|
"PIK",
|
|
"PIKOM",
|
|
"PIN",
|
|
"PINTAS",
|
|
"PIPM",
|
|
"PISK",
|
|
"PITA",
|
|
"PIXEL",
|
|
"PJ",
|
|
"PJK",
|
|
"PJKB",
|
|
"PJP",
|
|
"PKBM",
|
|
"PKBTA",
|
|
"PKEN",
|
|
"Pkh.",
|
|
"PKKM",
|
|
"PKLPA",
|
|
"PKM",
|
|
"PKNS",
|
|
"PKPIM",
|
|
"PKPM",
|
|
"PKR",
|
|
"PKS",
|
|
"Pl.",
|
|
"p.l.",
|
|
"PLA",
|
|
"PLC",
|
|
"PLCHP",
|
|
"PLCs",
|
|
"PLI",
|
|
"PLT",
|
|
"PLUS",
|
|
"PLWS",
|
|
"PM",
|
|
"Pm",
|
|
"PMM",
|
|
"PMP",
|
|
"PMR",
|
|
"PMS",
|
|
"Pn.",
|
|
"PNAT",
|
|
"PNS",
|
|
"PO",
|
|
"Po",
|
|
"POCPA",
|
|
"POKEMON",
|
|
"Pol.",
|
|
"POP",
|
|
"PORIM",
|
|
"PORLA",
|
|
"PORTAFOAM",
|
|
"PP",
|
|
"PPA",
|
|
"PPBE",
|
|
"PPBK",
|
|
"ppd.",
|
|
"PPGM",
|
|
"PPI",
|
|
"PPK",
|
|
"PPL",
|
|
"PPM",
|
|
"PPP",
|
|
"PPPB",
|
|
"PPPLM",
|
|
"PPPM",
|
|
"PPR",
|
|
"PPRT",
|
|
"PPS",
|
|
"PPTM",
|
|
"PPU",
|
|
"PR",
|
|
"Pr",
|
|
"Pr.",
|
|
"prb.",
|
|
"PRI",
|
|
"PRO",
|
|
"Pro.",
|
|
"Prof.",
|
|
"PROSPER",
|
|
"PROSTAR",
|
|
"PROTON",
|
|
"PS",
|
|
"PSA",
|
|
"Psa.",
|
|
"PSCs",
|
|
"PSDC",
|
|
"PSDH",
|
|
"Psi.",
|
|
"PSKE",
|
|
"PSRM",
|
|
"PST",
|
|
"PT",
|
|
"Pt",
|
|
"PTD",
|
|
"PTP",
|
|
"Pu",
|
|
"PUNB",
|
|
"QA",
|
|
"QC",
|
|
"QCC",
|
|
"R&D",
|
|
"RA",
|
|
"Ra",
|
|
"RAM",
|
|
"RAPP",
|
|
"Rat.",
|
|
"Rb",
|
|
"RCA",
|
|
"RDA",
|
|
"RDAs",
|
|
"RDCs",
|
|
"RE",
|
|
"Re",
|
|
"REHDA",
|
|
"Rev.",
|
|
"Rf",
|
|
"Rg",
|
|
"RGB",
|
|
"Rh",
|
|
"RI",
|
|
"RIDA",
|
|
"RIP",
|
|
"RISDA",
|
|
"r.l.",
|
|
"RM",
|
|
"Rm.",
|
|
"RMKe-8",
|
|
"Rn",
|
|
"ROC",
|
|
"ROM",
|
|
"Rom.",
|
|
"RPG",
|
|
"RPS",
|
|
"RRI",
|
|
"RRIM",
|
|
"RRJP",
|
|
"RRP",
|
|
"RSGC",
|
|
"RSS",
|
|
"RSVP",
|
|
"Rt.",
|
|
"RTA",
|
|
"RTM",
|
|
"Ru",
|
|
"Rut.",
|
|
"RWCR",
|
|
"RX",
|
|
"S",
|
|
"S/N",
|
|
"S&T",
|
|
"S-VHS",
|
|
"SA",
|
|
"SAC",
|
|
"SADCs",
|
|
"SAGA",
|
|
"SALCRA",
|
|
"SALM",
|
|
"SALT",
|
|
"SAM",
|
|
"SAP",
|
|
"SARS",
|
|
"Sas.",
|
|
"s.a.w.",
|
|
"SB",
|
|
"Sb",
|
|
"Sb.",
|
|
"SBA",
|
|
"SBB",
|
|
"sbg.",
|
|
"SBK",
|
|
"SC",
|
|
"Sc",
|
|
"SCA",
|
|
"SCADA",
|
|
"SCANS",
|
|
"SCSI",
|
|
"SCuM",
|
|
"SDCs",
|
|
"Sdn. Bhd.",
|
|
"sdr.",
|
|
"SDRC",
|
|
"Se",
|
|
"SEATO",
|
|
"SEB",
|
|
"SECAM",
|
|
"SEDCs",
|
|
"SEFF",
|
|
"Sej.",
|
|
"SEMS",
|
|
"Sep.",
|
|
"Sept.",
|
|
"SESB",
|
|
"SESCo",
|
|
"s.f.",
|
|
"Sg",
|
|
"SGPCA",
|
|
"SGPPI",
|
|
"SGPPKRM",
|
|
"SGX",
|
|
"Si",
|
|
"Si.",
|
|
"SIA 1983",
|
|
"SIC",
|
|
"SIM",
|
|
"SING",
|
|
"SIRIM",
|
|
"SITTDEC",
|
|
"sj.",
|
|
"SKDTP",
|
|
"SKM",
|
|
"SKSM",
|
|
"SL",
|
|
"Sl.",
|
|
"sl.",
|
|
"SLMCH",
|
|
"SLR",
|
|
"SM",
|
|
"Sm",
|
|
"SMART",
|
|
"SMEs",
|
|
"SMEt",
|
|
"SMIs",
|
|
"SMIDEC",
|
|
"SMIDP",
|
|
"SMJK",
|
|
"SMR",
|
|
"SMS",
|
|
"SMT",
|
|
"SMTP",
|
|
"SN",
|
|
"Sn",
|
|
"SOB",
|
|
"SOCSO",
|
|
"SOHO",
|
|
"Son.",
|
|
"SOS",
|
|
"Sos.",
|
|
"SP",
|
|
"SPA",
|
|
"SPAM",
|
|
"SPCA",
|
|
"SPKR",
|
|
"SPLAM",
|
|
"SPM",
|
|
"SPNB",
|
|
"SPSP",
|
|
"t.",
|
|
"Ta",
|
|
"Tadb.",
|
|
"TAF",
|
|
"TAF-W",
|
|
"Tani",
|
|
"TAP",
|
|
"TAR",
|
|
"TARBI",
|
|
"TB",
|
|
"Tb",
|
|
"TBA",
|
|
"TBTP",
|
|
"Tc",
|
|
"TCPD",
|
|
"TDCs",
|
|
"Te",
|
|
"TEKUN",
|
|
"TELCO",
|
|
"TELEX",
|
|
"TEUs",
|
|
"TFP",
|
|
"TGV",
|
|
"TH",
|
|
"Th",
|
|
"THIS",
|
|
"Ti",
|
|
"TICAD",
|
|
"Tit.",
|
|
"TKA",
|
|
"Tks.",
|
|
"Tl",
|
|
"TLDM",
|
|
"TM",
|
|
"Tm",
|
|
"TMB",
|
|
"TMK",
|
|
"TNB",
|
|
"TNSB",
|
|
"TNT",
|
|
"TOEFL",
|
|
"TP",
|
|
"TPIM",
|
|
"TPK",
|
|
"TPPP",
|
|
"TPPT",
|
|
"TPSM",
|
|
"TPUB",
|
|
"TQM",
|
|
"Tr.",
|
|
"TRIPs",
|
|
"tsb.",
|
|
"tscf.",
|
|
"t.sh.",
|
|
"t.s.t.",
|
|
"TT",
|
|
"t.t.",
|
|
"TUDM",
|
|
"TV",
|
|
"TVSMR",
|
|
"TWAIN",
|
|
"TX",
|
|
"TYPHIrapid",
|
|
"U",
|
|
"Ubat",
|
|
"UDA",
|
|
"Udg.",
|
|
"UFO",
|
|
"UH",
|
|
"UIA",
|
|
"UiTM",
|
|
"UK",
|
|
"UKM",
|
|
"UL",
|
|
"Ul.",
|
|
"ULC",
|
|
"UM",
|
|
"UMNO",
|
|
"UMS",
|
|
"UN",
|
|
"UN/OSCAL",
|
|
"UNCLE",
|
|
"UNCTAD",
|
|
"UNDP",
|
|
"UNESCO",
|
|
"UNFCCC",
|
|
"UNFPA",
|
|
"UNHCR",
|
|
"UNICEF",
|
|
"UNIMAS",
|
|
"UNTAET",
|
|
"UPE",
|
|
"UPM",
|
|
"UPS",
|
|
"UPSR",
|
|
"URL",
|
|
"US",
|
|
"USAINS",
|
|
"USD",
|
|
"USM",
|
|
"USNO",
|
|
"USS",
|
|
"USSR",
|
|
"UTC",
|
|
"UTF",
|
|
"utk.",
|
|
"UTM",
|
|
"V",
|
|
"VAT",
|
|
"VCC",
|
|
"VCD",
|
|
"VCR",
|
|
"VD",
|
|
"VDSC",
|
|
"VGA",
|
|
"VHF",
|
|
"VHS",
|
|
"VIP",
|
|
"VMS",
|
|
"VO",
|
|
"VOA",
|
|
"VoIP",
|
|
"VR",
|
|
"VSOP",
|
|
"VW",
|
|
"W",
|
|
"W/O",
|
|
"WAP",
|
|
"WAY",
|
|
"WC",
|
|
"WDDM",
|
|
"WDM",
|
|
"WHO",
|
|
"Why.",
|
|
"WIM",
|
|
"WPG",
|
|
"WTO",
|
|
"WWF",
|
|
"WWW",
|
|
"WYSIWYG",
|
|
"Xe",
|
|
"XO",
|
|
"XXL",
|
|
"Y",
|
|
"Y2K",
|
|
"YAB",
|
|
"Yak.",
|
|
"YAM",
|
|
"YAS",
|
|
"YB",
|
|
"Yb",
|
|
"Yeh.",
|
|
"Yer.",
|
|
"Yes.",
|
|
"yg.",
|
|
"Yl.",
|
|
"YM",
|
|
"YMCA",
|
|
"Yoh.",
|
|
"Yos.",
|
|
"Y.Th.",
|
|
"YTM",
|
|
"Yud.",
|
|
"Yun.",
|
|
"Za.",
|
|
"Zec.",
|
|
"Zef.",
|
|
"Zep.",
|
|
"ZIP",
|
|
"Zn",
|
|
"Zr",
|
|
]:
|
|
_exc[orth] = [{ORTH: orth}]
|
|
|
|
TOKENIZER_EXCEPTIONS = update_exc(BASE_EXCEPTIONS, _exc)
|