pyannote-rs

Crates.io	pyannote-rs
lib.rs	pyannote-rs
version
source	src
created_at	2024-08-06 15:57:20.209334+00
updated_at	2024-12-13 11:39:42.427923+00
description	Speaker diarization using pyannote in Rust
homepage
repository	https://github.com/thewh1teagle/pyannote-rs
max_upload_size
id	1327464
Cargo.toml error:	TOML parse error at line 17, column 1 \| 17 \| autolib = false \| ^^^^^^^ unknown field `autolib`, expected one of `name`, `version`, `edition`, `authors`, `description`, `readme`, `license`, `repository`, `homepage`, `documentation`, `build`, `resolver`, `links`, `default-run`, `default_dash_run`, `rust-version`, `rust_dash_version`, `rust_version`, `license-file`, `license_dash_file`, `license_file`, `licenseFile`, `license_capital_file`, `forced-target`, `forced_dash_target`, `autobins`, `autotests`, `autoexamples`, `autobenches`, `publish`, `metadata`, `keywords`, `categories`, `exclude`, `include`
size	0

(thewh1teagle)

documentation

Pyannote audio diarization in Rust

cargo add pyannote-rs

How it works

pyannote-rs uses 2 models for speaker diarization:

Segmentation: segmentation-3.0 identifies when speech occurs.
Speaker Identification: wespeaker-voxceleb-resnet34-LM identifies who is speaking.

Inference is powered by onnxruntime.

The segmentation model processes up to 10s of audio, using a sliding window approach (iterating in chunks).
The embedding model processes filter banks (audio features) extracted with knf-rs.

Speaker comparison (e.g., determining if Alice spoke again) is done using cosine similarity.

Commit count: 81