From 80a66c0159b10f22f545c5515cbc1b6ff096976e Mon Sep 17 00:00:00 2001 From: Matthew Honnibal Date: Sun, 6 Sep 2015 18:43:44 +0200 Subject: [PATCH] * Add draft finnish stuff --- lang_data/fi/infix.txt | 3 + lang_data/fi/lemma_rules.json | 1 + lang_data/fi/morphs.json | 0 lang_data/fi/prefix.txt | 21 +++++ lang_data/fi/sample.txt | 3 + lang_data/fi/specials.json | 149 ++++++++++++++++++++++++++++++++++ lang_data/fi/suffix.txt | 26 ++++++ lang_data/fi/tag_map.json | 17 ++++ 8 files changed, 220 insertions(+) create mode 100644 lang_data/fi/infix.txt create mode 100644 lang_data/fi/lemma_rules.json create mode 100644 lang_data/fi/morphs.json create mode 100644 lang_data/fi/prefix.txt create mode 100644 lang_data/fi/sample.txt create mode 100644 lang_data/fi/specials.json create mode 100644 lang_data/fi/suffix.txt create mode 100644 lang_data/fi/tag_map.json diff --git a/lang_data/fi/infix.txt b/lang_data/fi/infix.txt new file mode 100644 index 000000000..37eca7350 --- /dev/null +++ b/lang_data/fi/infix.txt @@ -0,0 +1,3 @@ +\.\.\. +(?<=[a-z])\.(?=[A-Z]) +(?<=[a-zA-Z])-(?=[a-zA-z]) diff --git a/lang_data/fi/lemma_rules.json b/lang_data/fi/lemma_rules.json new file mode 100644 index 000000000..0967ef424 --- /dev/null +++ b/lang_data/fi/lemma_rules.json @@ -0,0 +1 @@ +{} diff --git a/lang_data/fi/morphs.json b/lang_data/fi/morphs.json new file mode 100644 index 000000000..e69de29bb diff --git a/lang_data/fi/prefix.txt b/lang_data/fi/prefix.txt new file mode 100644 index 000000000..48c4fc549 --- /dev/null +++ b/lang_data/fi/prefix.txt @@ -0,0 +1,21 @@ +, +" +( +[ +{ +* +< +$ +£ +“ +' +`` +` +# +US$ +C$ +A$ +a- +‘ +.... +... diff --git a/lang_data/fi/sample.txt b/lang_data/fi/sample.txt new file mode 100644 index 000000000..12c0bb787 --- /dev/null +++ b/lang_data/fi/sample.txt @@ -0,0 +1,3 @@ +Biografie: Ein Spiel ist ein Theaterstück des Schweizer Schriftstellers Max Frisch, das 1967 entstand und am 1. Februar 1968 im Schauspielhaus Zürich uraufgeführt wurde. 1984 legte Frisch eine überarbeitete Neufassung vor. Das von Frisch als Komödie bezeichnete Stück greift eines seiner zentralen Themen auf: die Möglichkeit oder Unmöglichkeit des Menschen, seine Identität zu verändern. + +Mit Biografie: Ein Spiel wandte sich Frisch von der Parabelform seiner Erfolgsstücke Biedermann und die Brandstifter und Andorra ab und postulierte eine „Dramaturgie der Permutation“. Darin sollte nicht, wie im klassischen Theater, Sinn und Schicksal im Mittelpunkt stehen, sondern die Zufälligkeit von Ereignissen und die Möglichkeit ihrer Variation. Dennoch handelt Biografie: Ein Spiel gerade von der Unmöglichkeit seines Protagonisten, seinen Lebenslauf grundlegend zu verändern. Frisch empfand die Wirkung des Stücks im Nachhinein als zu fatalistisch und die Umsetzung seiner theoretischen Absichten als nicht geglückt. Obwohl das Stück 1968 als unpolitisch und nicht zeitgemäß kritisiert wurde und auch später eine geteilte Rezeption erfuhr, gehört es an deutschsprachigen Bühnen zu den häufiger aufgeführten Stücken Frischs. diff --git a/lang_data/fi/specials.json b/lang_data/fi/specials.json new file mode 100644 index 000000000..0e0986339 --- /dev/null +++ b/lang_data/fi/specials.json @@ -0,0 +1,149 @@ +{ +"a.m.": [{"F": "a.m."}], +"p.m.": [{"F": "p.m."}], + +"1a.m.": [{"F": "1"}, {"F": "a.m."}], +"2a.m.": [{"F": "2"}, {"F": "a.m."}], +"3a.m.": [{"F": "3"}, {"F": "a.m."}], +"4a.m.": [{"F": "4"}, {"F": "a.m."}], +"5a.m.": [{"F": "5"}, {"F": "a.m."}], +"6a.m.": [{"F": "6"}, {"F": "a.m."}], +"7a.m.": [{"F": "7"}, {"F": "a.m."}], +"8a.m.": [{"F": "8"}, {"F": "a.m."}], +"9a.m.": [{"F": "9"}, {"F": "a.m."}], +"10a.m.": [{"F": "10"}, {"F": "a.m."}], +"11a.m.": [{"F": "11"}, {"F": "a.m."}], +"12a.m.": [{"F": "12"}, {"F": "a.m."}], +"1am": [{"F": "1"}, {"F": "am", "L": "a.m."}], +"2am": [{"F": "2"}, {"F": "am", "L": "a.m."}], +"3am": [{"F": "3"}, {"F": "am", "L": "a.m."}], +"4am": [{"F": "4"}, {"F": "am", "L": "a.m."}], +"5am": [{"F": "5"}, {"F": "am", "L": "a.m."}], +"6am": [{"F": "6"}, {"F": "am", "L": "a.m."}], +"7am": [{"F": "7"}, {"F": "am", "L": "a.m."}], +"8am": [{"F": "8"}, {"F": "am", "L": "a.m."}], +"9am": [{"F": "9"}, {"F": "am", "L": "a.m."}], +"10am": [{"F": "10"}, {"F": "am", "L": "a.m."}], +"11am": [{"F": "11"}, {"F": "am", "L": "a.m."}], +"12am": [{"F": "12"}, {"F": "am", "L": "a.m."}], + + +"1p.m.": [{"F": "1"}, {"F": "p.m."}], +"2p.m.": [{"F": "2"}, {"F": "p.m."}], +"3p.m.": [{"F": "3"}, {"F": "p.m."}], +"4p.m.": [{"F": "4"}, {"F": "p.m."}], +"5p.m.": [{"F": "5"}, {"F": "p.m."}], +"6p.m.": [{"F": "6"}, {"F": "p.m."}], +"7p.m.": [{"F": "7"}, {"F": "p.m."}], +"8p.m.": [{"F": "8"}, {"F": "p.m."}], +"9p.m.": [{"F": "9"}, {"F": "p.m."}], +"10p.m.": [{"F": "10"}, {"F": "p.m."}], +"11p.m.": [{"F": "11"}, {"F": "p.m."}], +"12p.m.": [{"F": "12"}, {"F": "p.m."}], +"1pm": [{"F": "1"}, {"F": "pm", "L": "p.m."}], +"2pm": [{"F": "2"}, {"F": "pm", "L": "p.m."}], +"3pm": [{"F": "3"}, {"F": "pm", "L": "p.m."}], +"4pm": [{"F": "4"}, {"F": "pm", "L": "p.m."}], +"5pm": [{"F": "5"}, {"F": "pm", "L": "p.m."}], +"6pm": [{"F": "6"}, {"F": "pm", "L": "p.m."}], +"7pm": [{"F": "7"}, {"F": "pm", "L": "p.m."}], +"8pm": [{"F": "8"}, {"F": "pm", "L": "p.m."}], +"9pm": [{"F": "9"}, {"F": "pm", "L": "p.m."}], +"10pm": [{"F": "10"}, {"F": "pm", "L": "p.m."}], +"11pm": [{"F": "11"}, {"F": "pm", "L": "p.m."}], +"12pm": [{"F": "12"}, {"F": "pm", "L": "p.m."}], + +"Jan.": [{"F": "Jan.", "L": "Januar"}], +"Feb.": [{"F": "Feb.", "L": "Februar"}], +"Mär.": [{"F": "Mär.", "L": "März"}], +"Apr.": [{"F": "Apr.", "L": "April"}], +"Mai.": [{"F": "Mai.", "L": "Mai"}], +"Jun.": [{"F": "Jun.", "L": "Juni"}], +"Jul.": [{"F": "Jul.", "L": "Juli"}], +"Aug.": [{"F": "Aug.", "L": "August"}], +"Sep.": [{"F": "Sep.", "L": "September"}], +"Sept.": [{"F": "Sept.", "L": "September"}], +"Okt.": [{"F": "Okt.", "L": "Oktober"}], +"Nov.": [{"F": "Nov.", "L": "November"}], +"Dez.": [{"F": "Dez.", "L": "Dezember"}], + +":)": [{"F": ":)"}], +"<3": [{"F": "<3"}], +";)": [{"F": ";)"}], +"(:": [{"F": "(:"}], +":(": [{"F": ":("}], +"-_-": [{"F": "-_-"}], +"=)": [{"F": "=)"}], +":/": [{"F": ":/"}], +":>": [{"F": ":>"}], +";-)": [{"F": ";-)"}], +":Y": [{"F": ":Y"}], +":P": [{"F": ":P"}], +":-P": [{"F": ":-P"}], +":3": [{"F": ":3"}], +"=3": [{"F": "=3"}], +"xD": [{"F": "xD"}], +"^_^": [{"F": "^_^"}], +"=]": [{"F": "=]"}], +"=D": [{"F": "=D"}], +"<333": [{"F": "<333"}], +":))": [{"F": ":))"}], +":0": [{"F": ":0"}], +"-__-": [{"F": "-__-"}], +"xDD": [{"F": "xDD"}], +"o_o": [{"F": "o_o"}], +"o_O": [{"F": "o_O"}], +"V_V": [{"F": "V_V"}], +"=[[": [{"F": "=[["}], +"<33": [{"F": "<33"}], +";p": [{"F": ";p"}], +";D": [{"F": ";D"}], +";-p": [{"F": ";-p"}], +";(": [{"F": ";("}], +":p": [{"F": ":p"}], +":]": [{"F": ":]"}], +":O": [{"F": ":O"}], +":-/": [{"F": ":-/"}], +":-)": [{"F": ":-)"}], +":(((": [{"F": ":((("}], +":((": [{"F": ":(("}], +":')": [{"F": ":')"}], +"(^_^)": [{"F": "(^_^)"}], +"(=": [{"F": "(="}], +"o.O": [{"F": "o.O"}], +"\")": [{"F": "\")"}], +"a.": [{"F": "a."}], +"b.": [{"F": "b."}], +"c.": [{"F": "c."}], +"d.": [{"F": "d."}], +"e.": [{"F": "e."}], +"f.": [{"F": "f."}], +"g.": [{"F": "g."}], +"h.": [{"F": "h."}], +"i.": [{"F": "i."}], +"j.": [{"F": "j."}], +"k.": [{"F": "k."}], +"l.": [{"F": "l."}], +"m.": [{"F": "m."}], +"n.": [{"F": "n."}], +"o.": [{"F": "o."}], +"p.": [{"F": "p."}], +"q.": [{"F": "q."}], +"s.": [{"F": "s."}], +"t.": [{"F": "t."}], +"u.": [{"F": "u."}], +"v.": [{"F": "v."}], +"w.": [{"F": "w."}], +"x.": [{"F": "x."}], +"y.": [{"F": "y."}], +"z.": [{"F": "z."}], + +"z.b.": [{"F": "z.b."}], +"e.h.": [{"F": "I.e."}], +"o.ä.": [{"F": "I.E."}], +"bzw.": [{"F": "bzw."}], +"usw.": [{"F": "usw."}], +"\n": [{"F": "\n", "pos": "SP"}], +"\t": [{"F": "\t", "pos": "SP"}], +" ": [{"F": " ", "pos": "SP"}] +} diff --git a/lang_data/fi/suffix.txt b/lang_data/fi/suffix.txt new file mode 100644 index 000000000..d8c6bc2c2 --- /dev/null +++ b/lang_data/fi/suffix.txt @@ -0,0 +1,26 @@ +, +\" +\) +\] +\} +\* +\! +\? +% +\$ +> +: +; +' +” +'' +'s +'S +’s +’S +’ +\.\. +\.\.\. +\.\.\.\. +(?<=[a-z0-9)\]"'%\)])\. +(?<=[0-9])km diff --git a/lang_data/fi/tag_map.json b/lang_data/fi/tag_map.json new file mode 100644 index 000000000..6b21a1e29 --- /dev/null +++ b/lang_data/fi/tag_map.json @@ -0,0 +1,17 @@ +{ + "NOUN": {"pos": "NOUN"}, + "VERB": {"pos": "VERB"}, + "PUNCT": {"pos": "PUNCT"}, + "ADV": {"pos": "ADV"}, + "ADJ": {"pos": "ADJ"}, + "PRON": {"pos": "PRON"}, + "PROPN": {"pos": "PROPN"}, + "CONJ": {"pos": "CONJ"}, + "NUM": {"pos": "NUM"}, + "AUX": {"pos": "AUX"}, + "SCONJ": {"pos": "SCONJ"}, + "ADP": {"pos": "ADP"}, + "SYM": {"pos": "SYM"}, + "X": {"pos": "X"}, + "INTJ": {"pos": "INTJ"} +}