Srijan Biswas Ответов: 0

Метки извлечение слов из аудио в Python


Я работаю над проектом преобразования речи в текст на python с использованием Vosk API. Я пытаюсь получить временные метки определенных фраз, присутствующих в аудио, для некоторого анализа данных. Мне нужен какой-то алгоритм или какой-то подход к тому, как я могу сделать то же самое без использования Google Cloud Speech API/IBM Watson Speech API. Любая помощь приветствуется.

Что я уже пробовал:

Я пробовал использовать SimpleAudioIndexer, который использует pocketsphinx и Watson Cloud API, но его точность не соответствует ожиданиям.

Gerry Schmitz

Если вы воспроизводите текст (как текст в речь), вы должны иметь возможность делать тайминги, потому что речевой движок должен иметь события для: слова (разрывы), предложения и т. д., которые вы можете зацепить.

0 Ответов