lindera-python

Crates.io	lindera-python
lib.rs	lindera-python
version	1.1.0
created_at	2025-09-11 04:35:36.355997+00
updated_at	2025-09-14 15:27:18.637502+00
description	Python binding for Lindera.
homepage	https://github.com/lindera/lindera-python
repository	https://github.com/lindera/lindera-python
max_upload_size
id	1833330
size	487,328

Minoru OSUKA (mosuka)

documentation

https://docs.rs/lindera-python

README

lindera-python

Python binding for Lindera, a Japanese morphological analysis engine.

Overview

lindera-python provides a comprehensive Python interface to the Lindera 1.1.1 morphological analysis engine, supporting Japanese, Korean, and Chinese text analysis. This implementation includes all major features:

Multi-language Support: Japanese (IPADIC, UniDic), Korean (ko-dic), Chinese (CC-CEDICT)
Character Filters: Text preprocessing with mapping, regex, Unicode normalization, and Japanese iteration mark handling
Token Filters: Post-processing filters including lowercase, length filtering, stop words, and Japanese-specific filters
Flexible Configuration: Configurable tokenization modes and penalty settings
Metadata Support: Complete dictionary schema and metadata management

Features

Core Components

TokenizerBuilder: Fluent API for building customized tokenizers
Tokenizer: High-performance text tokenization with integrated filtering
CharacterFilter: Pre-processing filters for text normalization
TokenFilter: Post-processing filters for token refinement
Metadata & Schema: Dictionary structure and configuration management

Supported Dictionaries

Japanese: IPADIC (embedded), UniDic (embedded)
Korean: ko-dic (embedded)
Chinese: CC-CEDICT (embedded)
Custom: User dictionary support

Filter Types

Character Filters:

Mapping filter (character replacement)
Regex filter (pattern-based replacement)
Unicode normalization (NFKC, etc.)
Japanese iteration mark normalization

Token Filters:

Text case transformation (lowercase, uppercase)
Length filtering (min/max character length)
Stop words filtering
Japanese-specific filters (base form, reading form, etc.)
Korean-specific filters

Install project dependencies

pyenv : https://github.com/pyenv/pyenv?tab=readme-ov-file#installation
Poetry : https://python-poetry.org/docs/#installation
Rust : https://www.rust-lang.org/tools/install

Install Python

# Install Python
% pyenv install 3.13.5

Setup repository and activate virtual environment

# Clone lindera-python project repository
% git clone git@github.com:lindera/lindera-python.git
% cd lindera-python

# Set Python version for this project
% pyenv local 3.13.5

# Make Python virtual environment
% python -m venv .venv

# Activate Python virtual environment
% source .venv/bin/activate

# Initialize lindera-python project
(.venv) % make init

Install lindera-python as a library in the virtual environment

This command takes a long time because it builds a library that includes all the dictionaries.

(.venv) % make develop

Quick Start

Basic Tokenization

from lindera import TokenizerBuilder

# Create a tokenizer with default settings
builder = TokenizerBuilder()
builder.set_mode("normal")
builder.set_dictionary("embedded://ipadic")
tokenizer = builder.build()

# Tokenize Japanese text
text = "すもももももももものうち"
tokens = tokenizer.tokenize(text)

for token in tokens:
    print(f"Text: {token.text}, Position: {token.position}")

Using Character Filters

from lindera import TokenizerBuilder

# Create tokenizer builder
builder = TokenizerBuilder()
builder.set_mode("normal")
builder.set_dictionary("embedded://ipadic")

# Add character filters
builder.append_character_filter("mapping", {"mapping": {"ー": "-"}})
builder.append_character_filter("unicode_normalize", {"kind": "nfkc"})

# Build tokenizer with filters
tokenizer = builder.build()
text = "テストー１２３"
tokens = tokenizer.tokenize(text)  # Will apply filters automatically

Using Token Filters

from lindera import TokenizerBuilder

# Create tokenizer builder
builder = TokenizerBuilder()
builder.set_mode("normal")
builder.set_dictionary("embedded://ipadic")

# Add token filters
builder.append_token_filter("lowercase")
builder.append_token_filter("length", {"min": 2, "max": 10})
builder.append_token_filter("japanese_stop_tags", {"tags": ["助詞", "助動詞"]})

# Build tokenizer with filters
tokenizer = builder.build()
tokens = tokenizer.tokenize("テキストの解析")

Integrated Pipeline

from lindera import TokenizerBuilder

# Build tokenizer with integrated filters
builder = TokenizerBuilder()
builder.set_mode("normal")
builder.set_dictionary("embedded://ipadic")

# Add character filters
builder.append_character_filter("mapping", {"mapping": {"ー": "-"}})
builder.append_character_filter("unicode_normalize", {"kind": "nfkc"})

# Add token filters  
builder.append_token_filter("lowercase")
builder.append_token_filter("japanese_base_form")

# Build and use
tokenizer = builder.build()
tokens = tokenizer.tokenize("コーヒーショップ")

Working with Metadata

from lindera import Metadata

# Get metadata for a specific dictionary
metadata = Metadata.load("embedded://ipadic")
print(f"Dictionary: {metadata.dictionary_name}")
print(f"Version: {metadata.dictionary_version}")

# Access schema information
schema = metadata.dictionary_schema
print(f"Schema has {len(schema.fields)} fields")
print(f"Fields: {schema.fields[:5]}")  # First 5 fields

Advanced Usage

Filter Configuration Examples

Character filters and token filters accept configuration as dictionary arguments:

from lindera import TokenizerBuilder

builder = TokenizerBuilder()
builder.set_dictionary("embedded://ipadic")

# Character filters with dict configuration
builder.append_character_filter("unicode_normalize", {"kind": "nfkc"})
builder.append_character_filter("japanese_iteration_mark", {
    "normalize_kanji": "true",
    "normalize_kana": "true"
})
builder.append_character_filter("mapping", {
    "mapping": {"リンデラ": "lindera", "トウキョウ": "東京"}
})

# Token filters with dict configuration  
builder.append_token_filter("japanese_katakana_stem", {"min": 3})
builder.append_token_filter("length", {"min": 2, "max": 10})
builder.append_token_filter("japanese_stop_tags", {
    "tags": ["助詞", "助動詞", "記号"]
})

# Filters without configuration can omit the dict
builder.append_token_filter("lowercase")
builder.append_token_filter("japanese_base_form")

tokenizer = builder.build()

See examples/ directory for comprehensive examples including:

tokenize.py: Basic tokenization
tokenize_with_filters.py: Using character and token filters
tokenize_with_userdict.py: Custom user dictionary
Multi-language tokenization
Advanced configuration options

Dictionary Support

Japanese

IPADIC: Default Japanese dictionary, good for general text
UniDic: Academic dictionary with detailed morphological information

Korean

ko-dic: Standard Korean dictionary for morphological analysis

Chinese

CC-CEDICT: Community-maintained Chinese-English dictionary

Custom Dictionaries

User dictionary support for domain-specific terms
CSV format for easy customization

API Reference

Core Classes

TokenizerBuilder: Fluent builder for tokenizer configuration
Tokenizer: Main tokenization engine
Token: Individual token with text, position, and linguistic features
CharacterFilter: Text preprocessing filters
TokenFilter: Token post-processing filters
Metadata: Dictionary metadata and configuration
Schema: Dictionary schema definition

See the test_basic.py file for comprehensive API usage examples.

Commit count: 180

lindera-python

documentation

README

lindera-python

Overview

Features

Core Components

Supported Dictionaries

Filter Types

Install project dependencies

Install Python

Setup repository and activate virtual environment

Install lindera-python as a library in the virtual environment

Quick Start

Basic Tokenization

Using Character Filters

Using Token Filters

Integrated Pipeline

Working with Metadata

Advanced Usage

Filter Configuration Examples

Dictionary Support

Japanese

Korean

Chinese

Custom Dictionaries

API Reference

Core Classes

cargo fmt