Илья В. , Senior, ML-инженер

Male avatar
Илья В.
Россия, Санкт-Петербург
2 760 ₽/час 441 600 ₽/мес. без НДС
    ML-инженер
  • Senior
Опыт работы:
От 3 до 6 лет
Языки:

Английский — C1

ПисьменныйРазговорный

О специалисте

Навыки
PyTorch
transformers
llm
RAG
Hybrid Search
FAISS
LoRa
QLoRA
sentence-transformers
Lightgbm
CatBoost
Sklearn
LTR
Tokenizers
intent detection
NER
dialogs
summarization
classification
Prompt Engineering
CLIP
ViT
Whisper
multimodal embeddings
cross-modal retrieval
Airflow
MLflow
DVC
Kubernetes
CI/CD
Prometheus
Grafana
inference optimization
Python
FastAPI
Grpc
Asyncio
Postgres
Redis
Kafka
Linux
Pandas
Numpy
SciPy
feature engineering
Statistics
A/B testing
Go
C++
C#
Applications:
Docker
Technology:
SQL
Формат работы
Удалённо
Описание о специалисте

ML/AI инженер с 5+ годами опыта в LLM, NLP, классическом ML, рекомендательных системах и построении продакшн-пайплайнов. Работал над нейросетями и ML-инфраструктурой в SberDevices, Яндекс Музыке и GraviLink.

Разрабатывал LLM-ассистентов, RAG-системы, гибридные рекомендательные модели и высоконагруженные ML-сервисы. Специализируюсь на fine-tuning моделей, оптимизации инференса, A/B-тестах и аналитике данных.

Примеры работ

Lucy AI - Голосовой AI-ассистент поддержки (LLM + STT + TTS + скрипты)
Описание задачи/проекта

Разработка голосового AI-ассистента для автоматизации клиентской поддержки: обработка входящих звонков, ведение диалога, уточнение запроса, интеграция с бизнес-системами.

Позиция на проекте
Team Lead ML / LLM Engineer
Размер команды
1 ML/LLM Engineer, 1 Backend, 1 Frontend
Ответственность
  1. Проектирование end-to-end пайплайна STT > LLM > TTS для real-time диалогов
  2. Настройка Whisper с кастомными словарями и доменными терминами
  3. Обучение и адаптация LLM под диалоговые сценарии поддержки
  4. Реализация intent detection и сценарного диалогового менеджера
  5. Интеграция голосового ассистента с backend-сервисами через API
  6. Обработка ошибок, fallback-сценариев и отказоустойчивость
  7. Использование Redis для кэширования, хранения сессионного состояния и ускорения обработки запросов.
  8. Работа по задачам в Jira, участвовал в планировании и декомпозиции задач.
  9. Мониторинг latency, стабильности и качества ответов
Технологии и инструменты
Docker, FastAPI, Git, llama, Python, WebRTC, Whisper, Qwen, VITS
Период работы/продолжительность
Сентябрь 2025 г. - Май 2026 г.
Internal AI Evaluation & Reliability Framework
Описание задачи/проекта

Внутренний R&D-проект по созданию системы оценки качества, устойчивости и воспроизводимости LLM-моделей и RAG-цепочек перед выкаткой в продакшен.

Позиция на проекте
Senior ML / LLM Engineer
Размер команды
4 ML/LLM Engineer, 8 Backend, 7 QA, PM, Тимлид, 5 Frontend
Ответственность
  1. Проектирование единой методологии оценки качества LLM и RAG-систем
  2. Разработка offline evaluation пайплайнов для ответов моделей (semantic similarity, factuality, coverage)
  3. Реализация regression-тестов для проверки деградаций после fine-tuning
  4. Построение датасетов контрольных запросов и edge-кейсов
  5. Анализ ошибок генерации: hallucinations, reasoning gaps, retrieval noise
  6. Интеграция evaluation в CI-процессы перед релизами
  7. Подготовка отчетов для ML и продуктовых команд
  8. Проектирование и реализация RAG-архитектур (FAISS, rerankers)
  9. Fine-tuning LLM (LoRA / QLoRA)
  10. Построение пайплайнов обучения, оценки и валидации моделей
  11. Оптимизация инференса (vLLM, ONNX, batching, caching)
  12. Интеграция LLM-сервисов в продакшн
Технологии и инструменты
Docker, FastAPI, Git, Jira, llama, LoRa, Python, PyTorch, FAISS, Hugging Face Transformers, Mistral, ONNX Runtime, vLLM, sentence-transformers, Qwen, QLoRA, rerankers, ML evaluation pipelines, MPL
Период работы/продолжительность
Июль 2024 г. - Август 2025 г.
Мультимодальный AI-ассистент (Text / Audio / Image)
Описание задачи/проекта

Развитие рекомендательной системы для персональных плейлистов и музыкальных подборок с упором на онлайн-метрики и масштабируемость. R&D-проект по разработке мультимодального AI-ассистента, способного понимать и обрабатывать текст, голос и изображения, а также выполнять reasoning и отвечать на сложные пользовательские запросы.

Позиция на проекте
ML / LLM Engineer
Размер команды
5 ML Engineer, 4 Backend, 1 Research Engineer, 1 PM, Тимлид, PM, 2 аналитика
Ответственность
  1. Проектирование архитектуры мультимодального ассистента с разделением потоков данных
  2. Интеграция моделей обработки текста, аудио и изображений в единый inference-контур
  3. Реализация обработки аудио через Whisper с нормализацией и постобработкой транскрипций
  4. Использование PySpark для обработки больших массивов clickstream-данных и подготовки фичей для моделей.
  5. Работа с данными в Hadoop-кластере для хранения и агрегации пользовательских событий.
  6. Анализи clickstream-события пользователей для построения поведенческих фичей и улучшения ранжирования.
  7. Использование vision-моделей (CLIP / ViT) для извлечения визуальных эмбеддингов
  8. Интеграция LLM (Llama / Qwen) для reasoning и генерации ответов
  9. Разработка контроллера мультимодальных токенов и логики маршрутизации между моделями
  10. Оптимизация пайплайна для последовательных и смешанных мультимодальных запросов
  11. Разработка гибридной рек. модели (нейросетевые эмбеддинги + LightGBM)
  12. Feature engineering на основе пользовательского поведения
  13. Построение офлайн-пайплайнов обучения и онлайн-инференса
  14. Проведение A/B-тестов и анализ влияния моделей на продуктовые метрики
  15. Интеграция моделей в продакшн-контур
Технологии и инструменты
A/B testing, Clickhouse, Docker, FastAPI, Git, Jira, Lightgbm, llama, Numpy, Python, PyTorch, SQL, Whisper, Airflow, Hugging Face Transformers, CLIP, Qwen, ViT, нейросетевые эмбеддинги, hybrid recommender systems, офлайн и онлайн-метрики
Период работы/продолжительность
Март 2023 г. - Июль 2024 г.
NLU-модуль голосового ассистента
Описание задачи/проекта

Разработка отдельного NLU-модуля для понимания пользовательских запросов в голосовом ассистенте: интенты, сущности, контекст диалога.

Позиция на проекте
AI / NLP Engineer
Размер команды
Тимлид, PM, 4 ML-инженера, 3 Backend, 2 QA
Ответственность
  1. Обучение моделей intent classification и slot filling
  2. Fine-tuning трансформеров под разговорную речь
  3. Работа с короткими и многошаговыми диалогами
  4. Анализ ошибок распознавания и редких кейсов
  5. Интеграция моделей в сервисы ассистента
  6. Оптимизация скорости инференса
  7. Использование Tesseract в OCR-пайплайнах для извлечения текста из документов с последующей NLP-обработкой (spaCy/Natasha).
  8. Разработка и дообучение NLP-моделей для intent detection и slot filling
  9. Fine-tuning трансформеров (BERT, RuBERT, GPT-like модели)
  10. Построение пайплайнов обработки данных и обучения моделей
  11. Интеграция моделей в backend-сервисы ассистента
  12. Анализ ошибок, работа с edge-cases и длинными диалогами
Технологии и инструменты
Bert, Docker, FastAPI, Git, Grpc, Python, PyTorch, Spark, SQL, transformers, Hugging Face Transformers, RuBERT, GPT-like модели, ML-эксперименты, офлайн-оценка качества моделей, MCP-servers
Период работы/продолжительность
Февраль 2021 г. - Март 2023 г.

Образование

Бакалавр
Название учебного заведения/курса
Университет ITMO
Специальность
Факультет технологий искусственного интеллекта, Бакалавр Инженерии ИИ
Не нашли, кого искали?

Оставьте заявку и, наша команда в кратчайшие сроки подберёт необходимого специалиста за вас!

Помните, что заключение договора и оплата услуг происходит после того, как вы выбрали специалиста

Request Poster