Метки извлечение слов из аудио в Python
Я работаю над проектом преобразования речи в текст на python с использованием Vosk API. Я пытаюсь получить временные метки определенных фраз, присутствующих в аудио, для некоторого анализа данных. Мне нужен какой-то алгоритм или какой-то подход к тому, как я могу сделать то же самое без использования Google Cloud Speech API/IBM Watson Speech API. Любая помощь приветствуется.
Что я уже пробовал:
Я пробовал использовать SimpleAudioIndexer, который использует pocketsphinx и Watson Cloud API, но его точность не соответствует ожиданиям.
Gerry Schmitz
Если вы воспроизводите текст (как текст в речь), вы должны иметь возможность делать тайминги, потому что речевой движок должен иметь события для: слова (разрывы), предложения и т. д., которые вы можете зацепить.