spaCy/bin/get_freqs.py

#!/usr/bin/env python

from __future__ import unicode_literals, print_function

import plac
import joblib
from os import path
import os
import bz2
import ujson
import codecs
from preshed.counter import PreshCounter
from joblib import Parallel, delayed

import spacy.en
from spacy.strings import StringStore
from spacy.attrs import ORTH
from spacy.tokenizer import Tokenizer
from spacy.vocab import Vocab


def iter_comments(loc):
    with bz2.BZ2File(loc) as file_:
        for line in file_:
            yield ujson.loads(line)


def count_freqs(input_loc, output_loc):
    print(output_loc)
    tokenizer = Tokenizer.from_dir(Vocab(),
                    path.join(spacy.en.English.default_data_dir(), 'tokenizer'))

    counts = PreshCounter()
    for json_comment in iter_comments(input_loc):
        doc = tokenizer(json_comment['body'])
        doc.count_by(ORTH, counts=counts)

    with codecs.open(output_loc, 'w', 'utf8') as file_:
        for orth, freq in counts:
            string = tokenizer.vocab.strings[orth]
            if not string.isspace():
                file_.write('%d\t%s\n' % (freq, string))


def parallelize(func, iterator, n_jobs):
    Parallel(n_jobs=n_jobs)(delayed(func)(*item) for item in iterator)


def merge_counts(locs, out_loc):
    string_map = StringStore()
    counts = PreshCounter()
    for loc in locs:
        with io.open(loc, 'r', encoding='utf8') as file_:
            for line in file_:
                freq, word = line.strip().split('\t', 1)
                orth = string_map[word]
                counts.inc(orth, int(freq))
    with io.open(out_loc, 'w', encoding='utf8') as file_:
        for orth, count in counts:
            string = string_map[orth]
            file_.write('%d\t%s\n' % (count, string))


@plac.annotations(
    input_loc=("Location of input file list"),
    freqs_dir=("Directory for frequency files"),
    output_loc=("Location for output file"),
    n_jobs=("Number of workers", "option", "n", int),
    skip_existing=("Skip inputs where an output file exists", "flag", "s", bool),
)
def main(input_loc, freqs_dir, output_loc, n_jobs=2, skip_existing=False):
    tasks = []
    outputs = []
    for input_path in open(input_loc):
        input_path = input_path.strip()
        if not input_path:
            continue
        filename = input_path.split('/')[-1]
        output_path = path.join(freqs_dir, filename.replace('bz2', 'freq'))
        outputs.append(output_path)
        if not path.exists(output_path) or not skip_existing:
            tasks.append((input_path, output_path))

    if tasks:
        parallelize(count_freqs, tasks, n_jobs)

    print("Merge")
    merge_counts(outputs, output_loc)
                

if __name__ == '__main__':
    plac.call(main)
* Add get_freqs script 2015-07-14 03:31:32 +03:00			`#!/usr/bin/env python`

* Update get_freqs.py script 2015-10-15 20:20:35 +03:00			`from __future__ import unicode_literals, print_function`
* Add get_freqs script 2015-07-14 03:31:32 +03:00
			`import plac`
			`import joblib`
			`from os import path`
			`import os`
			`import bz2`
			`import ujson`
			`import codecs`
			`from preshed.counter import PreshCounter`
			`from joblib import Parallel, delayed`

			`import spacy.en`
			`from spacy.strings import StringStore`
* Update get_freqs.py script 2015-10-15 20:20:35 +03:00			`from spacy.attrs import ORTH`
* Update get_freqs.py script 2015-10-15 20:24:08 +03:00			`from spacy.tokenizer import Tokenizer`
			`from spacy.vocab import Vocab`
* Add get_freqs script 2015-07-14 03:31:32 +03:00

			`def iter_comments(loc):`
			`with bz2.BZ2File(loc) as file_:`
			`for line in file_:`
			`yield ujson.loads(line)`


			`def count_freqs(input_loc, output_loc):`
* Update get_freqs.py script 2015-10-15 20:20:35 +03:00			`print(output_loc)`
* Update get_freqs.py script 2015-10-15 20:31:15 +03:00			`tokenizer = Tokenizer.from_dir(Vocab(),`
			`path.join(spacy.en.English.default_data_dir(), 'tokenizer'))`
* Add get_freqs script 2015-07-14 03:31:32 +03:00
			`counts = PreshCounter()`
			`for json_comment in iter_comments(input_loc):`
			`doc = tokenizer(json_comment['body'])`
			`doc.count_by(ORTH, counts=counts)`

			`with codecs.open(output_loc, 'w', 'utf8') as file_:`
			`for orth, freq in counts:`
* Update get_freqs.py script 2015-10-15 20:20:35 +03:00			`string = tokenizer.vocab.strings[orth]`
			`if not string.isspace():`
			`file_.write('%d\t%s\n' % (freq, string))`
* Add get_freqs script 2015-07-14 03:31:32 +03:00

			`def parallelize(func, iterator, n_jobs):`
			`Parallel(n_jobs=n_jobs)(delayed(func)(*item) for item in iterator)`


			`def merge_counts(locs, out_loc):`
			`string_map = StringStore()`
			`counts = PreshCounter()`
			`for loc in locs:`
* Update get_freqs.py script 2015-10-15 20:20:35 +03:00			`with io.open(loc, 'r', encoding='utf8') as file_:`
* Add get_freqs script 2015-07-14 03:31:32 +03:00			`for line in file_:`
			`freq, word = line.strip().split('\t', 1)`
			`orth = string_map[word]`
			`counts.inc(orth, int(freq))`
* Update get_freqs.py script 2015-10-15 20:20:35 +03:00			`with io.open(out_loc, 'w', encoding='utf8') as file_:`
* Update get_freqs script 2015-07-22 16:43:06 +03:00			`for orth, count in counts:`
* Add get_freqs script 2015-07-14 03:31:32 +03:00			`string = string_map[orth]`
			`file_.write('%d\t%s\n' % (count, string))`


			`@plac.annotations(`
* Change get_freqs to take a list of files 2015-07-14 11:55:56 +03:00			`input_loc=("Location of input file list"),`
* Add get_freqs script 2015-07-14 03:31:32 +03:00			`freqs_dir=("Directory for frequency files"),`
			`output_loc=("Location for output file"),`
			`n_jobs=("Number of workers", "option", "n", int),`
* Update get_freqs script 2015-07-22 16:43:06 +03:00			`skip_existing=("Skip inputs where an output file exists", "flag", "s", bool),`
* Add get_freqs script 2015-07-14 03:31:32 +03:00			`)`
* Update get_freqs script 2015-07-22 16:43:06 +03:00			`def main(input_loc, freqs_dir, output_loc, n_jobs=2, skip_existing=False):`
* Add get_freqs script 2015-07-14 03:31:32 +03:00			`tasks = []`
* Update get_freqs script 2015-07-22 16:43:06 +03:00			`outputs = []`
* Change get_freqs to take a list of files 2015-07-14 11:55:56 +03:00			`for input_path in open(input_loc):`
			`input_path = input_path.strip()`
* Update get_freqs script 2015-07-22 16:43:06 +03:00			`if not input_path:`
			`continue`
* Change get_freqs to take a list of files 2015-07-14 11:55:56 +03:00			`filename = input_path.split('/')[-1]`
* Add get_freqs script 2015-07-14 03:31:32 +03:00			`output_path = path.join(freqs_dir, filename.replace('bz2', 'freq'))`
* Update get_freqs script 2015-07-22 16:43:06 +03:00			`outputs.append(output_path)`
			`if not path.exists(output_path) or not skip_existing:`
			`tasks.append((input_path, output_path))`
* Add get_freqs script 2015-07-14 03:31:32 +03:00
* Upd get_freqs script 2015-07-25 22:13:41 +03:00			`if tasks:`
			`parallelize(count_freqs, tasks, n_jobs)`
* Add get_freqs script 2015-07-14 03:31:32 +03:00
* Update get_freqs.py script 2015-10-15 20:20:35 +03:00			`print("Merge")`
* Update get_freqs script 2015-07-22 16:43:06 +03:00			`merge_counts(outputs, output_loc)`
* Add get_freqs script 2015-07-14 03:31:32 +03:00

			`if __name__ == '__main__':`
			`plac.call(main)`