DL Engineer (ASR or TTS for Call center)

АКБ "InFinBank" (Invest Finance Bank)

Занятость	Полная занятость
	Полная занятость
Адрес	Узбекистан, Ташкент

Описание вакансии

Мы в поисках специалиста, который будет работать над системами автоматического распознавания речи (ASR) и синтеза речи (TTS). Ожидается участие в выборе моделей, в обучении моделей, и в настройке пайплайнов для inference в реальном времени.

Будущие задачи:

Разработка и оптимизация моделей ASR и/или TTS (на базе open-source и кастомных решений)
Исследование и внедрение моделей на базе Whisper, NeMo, Vosk, FastSpeech, Tacotron и др.
Обработка аудиоданных: препроцессинг, очистка, аугментации
Оптимизация latency, обеспечение real-time inference
Интеграция моделей в сервисы (API, gRPC, FastAPI)
Мониторинг качества (WER, MOS и др.), A/B тестирование
Обучение/Дообучение Моделей на данных

Требования:

Опыт работы с задачами ASR и/или TTS в ML-продуктах
Уверенное знание Python, PyTorch / TensorFlow

Опыт с open-source решениями (Whisper, ESPNet, Mozilla TTS, Coqui, etc.)

Знание алгоритмов работы с аудио: FFT, MelSpectrogram, MFCC и т.п.
Навыки оптимизации inference (ONNX, quantization, streaming)
Понимание задач real-time распознавания
Опыт от 2-3 года в ML или DS проектах с голосом

Будет плюсом:

Опыт развертывания моделей в реальном времени (в т.ч. на GPU / edge)
Опыт с NeMo, HuggingFace Audio, Transformers (TTS/ASR модули)

Работа с облачными STT/TTS API и кастомизация поверх них

Требования

Опыт	От 3 до 6 лет

Условия работы

График работы

Полный день

Добавлено 14 дней назад

Пожаловаться

Отклик на HeadHunter

Для связи с работодателем или просмотра контактов нажмите на кнопку