Description

Python library ruword_frequency returns frequency (ipm - items per million) of russian words, case insensitive. It based on huge collection of russian documents and prepared word frequency sources. Full list:

Word's ipm from all enumerated sources was extracted and mean values used. Full index contains more them 7 billions word forms including mistakes from raw data sources (unfortunately).

Requirements:

Python 3
Word index occupies near 50 Mb on hard disk and will be downloaded first time you invoke frequency.load() method

Installation

pip install ruword_frequency

Usage

from ruword_frequency import Frequency
freq = Frequency()
freq.load()

freq.ipm('привет')
>>> 53.51823806762695

freq.ipm('неттакогослова')
>>> 0.0

# get max ipm value. For weights normalization, for example
freq.max_ipm()
>>> 42329.2890625

# get list of most used words  with ipm more then 10000
for w in freq.iterate_words(10000):
    print(w)

For other useful methods see marisa-trie documentations. Tree index available as freq.tree

Rebuild tree by yourself

from ruword_frequency.source_reader import SourceReader
reader = SourceReader()

# increase socket timeout, sometimes helpful for huge file downloading:
import socket
socket.setdefaulttimeout(60)

reader.download_all_sources()
tree = reader.build_tree_from_dictionaries()
reader.save_tree(tree)

# use it 
freq = Frequency()
freq.ipm('привет')

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
data		data
ruword_frequency		ruword_frequency
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Description

Requirements:

Installation

Usage

Rebuild tree by yourself

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Description

Requirements:

Installation

Usage

Rebuild tree by yourself

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages