DL Engineer (ASR or TTS for Call center)

Занятость Полная занятость
Полная занятость
Адрес Узбекистан, Ташкент
Описание вакансии

Мы в поисках специалиста, который будет работать над системами автоматического распознавания речи (ASR) и синтеза речи (TTS). Ожидается участие в выборе моделей, в обучении моделей, и в настройке пайплайнов для inference в реальном времени.

Будущие задачи:

  • Разработка и оптимизация моделей ASR и/или TTS (на базе open-source и кастомных решений)

  • Исследование и внедрение моделей на базе Whisper, NeMo, Vosk, FastSpeech, Tacotron и др.

  • Обработка аудиоданных: препроцессинг, очистка, аугментации

  • Оптимизация latency, обеспечение real-time inference

  • Интеграция моделей в сервисы (API, gRPC, FastAPI)

  • Мониторинг качества (WER, MOS и др.), A/B тестирование

  • Обучение/Дообучение Моделей на данных

Требования:

  • Опыт работы с задачами ASR и/или TTS в ML-продуктах

  • Уверенное знание Python, PyTorch / TensorFlow

  • Опыт с open-source решениями (Whisper, ESPNet, Mozilla TTS, Coqui, etc.)

  • Знание алгоритмов работы с аудио: FFT, MelSpectrogram, MFCC и т.п.

  • Навыки оптимизации inference (ONNX, quantization, streaming)

  • Понимание задач real-time распознавания

  • Опыт от 2-3 года в ML или DS проектах с голосом

Будет плюсом:

  • Опыт развертывания моделей в реальном времени (в т.ч. на GPU / edge)

  • Опыт с NeMo, HuggingFace Audio, Transformers (TTS/ASR модули)

  • Работа с облачными STT/TTS API и кастомизация поверх них

Требования
Опыт От 3 до 6 лет
Условия работы
График работы Полный день
Добавлено 14 дней назад
Для связи с работодателем или просмотра контактов нажмите на кнопку