DL Engineer (ASR or TTS for Call center)
Занятость | Полная занятость |
Полная занятость | |
Адрес | Узбекистан, Ташкент |
Мы в поисках специалиста, который будет работать над системами автоматического распознавания речи (ASR) и синтеза речи (TTS). Ожидается участие в выборе моделей, в обучении моделей, и в настройке пайплайнов для inference в реальном времени.
Будущие задачи:
-
Разработка и оптимизация моделей ASR и/или TTS (на базе open-source и кастомных решений)
-
Исследование и внедрение моделей на базе Whisper, NeMo, Vosk, FastSpeech, Tacotron и др.
-
Обработка аудиоданных: препроцессинг, очистка, аугментации
-
Оптимизация latency, обеспечение real-time inference
-
Интеграция моделей в сервисы (API, gRPC, FastAPI)
-
Мониторинг качества (WER, MOS и др.), A/B тестирование
-
Обучение/Дообучение Моделей на данных
Требования:
-
Опыт работы с задачами ASR и/или TTS в ML-продуктах
-
Уверенное знание Python, PyTorch / TensorFlow
-
Опыт с open-source решениями (Whisper, ESPNet, Mozilla TTS, Coqui, etc.)
-
Знание алгоритмов работы с аудио: FFT, MelSpectrogram, MFCC и т.п.
-
Навыки оптимизации inference (ONNX, quantization, streaming)
-
Понимание задач real-time распознавания
-
Опыт от 2-3 года в ML или DS проектах с голосом
Будет плюсом:
-
Опыт развертывания моделей в реальном времени (в т.ч. на GPU / edge)
-
Опыт с NeMo, HuggingFace Audio, Transformers (TTS/ASR модули)
-
Работа с облачными STT/TTS API и кастомизация поверх них
Опыт | От 3 до 6 лет |
График работы | Полный день |