Илья В. , Senior, ML-инженер

Илья В.

Россия, Санкт-Петербург

2 760 ₽/час 441 600 ₽/мес. без НДС

ML-инженер
Senior

Опыт работы:: От 3 до 6 лет
Языки:: Английский — C1
ПисьменныйРазговорный

Навыки

PyTorch

transformers

llm

RAG

Hybrid Search

FAISS

LoRa

QLoRA

sentence-transformers

Lightgbm

CatBoost

Sklearn

LTR

Tokenizers

intent detection

NER

dialogs

summarization

classification

Prompt Engineering

CLIP

ViT

Whisper

multimodal embeddings

cross-modal retrieval

Airflow

MLflow

DVC

Kubernetes

CI/CD

Prometheus

Grafana

inference optimization

Python

FastAPI

Grpc

Asyncio

Postgres

Redis

Kafka

Linux

Pandas

Numpy

SciPy

feature engineering

Statistics

A/B testing

C++

Applications:

Docker

Technology:

SQL

Формат работы

Удалённо

Описание о специалисте

ML/AI инженер с 5+ годами опыта в LLM, NLP, классическом ML, рекомендательных системах и построении продакшн-пайплайнов. Работал над нейросетями и ML-инфраструктурой в SberDevices, Яндекс Музыке и GraviLink.

Разрабатывал LLM-ассистентов, RAG-системы, гибридные рекомендательные модели и высоконагруженные ML-сервисы. Специализируюсь на fine-tuning моделей, оптимизации инференса, A/B-тестах и аналитике данных.

Lucy AI - Голосовой AI-ассистент поддержки (LLM + STT + TTS + скрипты)

Описание задачи/проекта

Разработка голосового AI-ассистента для автоматизации клиентской поддержки: обработка входящих звонков, ведение диалога, уточнение запроса, интеграция с бизнес-системами.

Позиция на проекте

Team Lead ML / LLM Engineer

Размер команды

1 ML/LLM Engineer, 1 Backend, 1 Frontend

Ответственность

Проектирование end-to-end пайплайна STT > LLM > TTS для real-time диалогов
Настройка Whisper с кастомными словарями и доменными терминами
Обучение и адаптация LLM под диалоговые сценарии поддержки
Реализация intent detection и сценарного диалогового менеджера
Интеграция голосового ассистента с backend-сервисами через API
Обработка ошибок, fallback-сценариев и отказоустойчивость
Использование Redis для кэширования, хранения сессионного состояния и ускорения обработки запросов.
Работа по задачам в Jira, участвовал в планировании и декомпозиции задач.
Мониторинг latency, стабильности и качества ответов

Технологии и инструменты

Docker, FastAPI, Git, llama, Python, WebRTC, Whisper, Qwen, VITS

Период работы/продолжительность

Сентябрь 2025 г. - Июль 2026 г.

Internal AI Evaluation & Reliability Framework

Описание задачи/проекта

Внутренний R&D-проект по созданию системы оценки качества, устойчивости и воспроизводимости LLM-моделей и RAG-цепочек перед выкаткой в продакшен.

Позиция на проекте

Senior ML / LLM Engineer

Размер команды

4 ML/LLM Engineer, 8 Backend, 7 QA, PM, Тимлид, 5 Frontend

Ответственность

Проектирование единой методологии оценки качества LLM и RAG-систем
Разработка offline evaluation пайплайнов для ответов моделей (semantic similarity, factuality, coverage)
Реализация regression-тестов для проверки деградаций после fine-tuning
Построение датасетов контрольных запросов и edge-кейсов
Анализ ошибок генерации: hallucinations, reasoning gaps, retrieval noise
Интеграция evaluation в CI-процессы перед релизами
Подготовка отчетов для ML и продуктовых команд
Проектирование и реализация RAG-архитектур (FAISS, rerankers)
Fine-tuning LLM (LoRA / QLoRA)
Построение пайплайнов обучения, оценки и валидации моделей
Оптимизация инференса (vLLM, ONNX, batching, caching)
Интеграция LLM-сервисов в продакшн

Технологии и инструменты

Docker, FastAPI, Git, Jira, llama, LoRa, Python, PyTorch, FAISS, Hugging Face Transformers, Mistral, ONNX Runtime, vLLM, sentence-transformers, Qwen, QLoRA, rerankers, ML evaluation pipelines, MPL

Период работы/продолжительность

Июль 2024 г. - Август 2025 г.

Мультимодальный AI-ассистент (Text / Audio / Image)

Описание задачи/проекта

Развитие рекомендательной системы для персональных плейлистов и музыкальных подборок с упором на онлайн-метрики и масштабируемость. R&D-проект по разработке мультимодального AI-ассистента, способного понимать и обрабатывать текст, голос и изображения, а также выполнять reasoning и отвечать на сложные пользовательские запросы.

Позиция на проекте

ML / LLM Engineer

Размер команды

5 ML Engineer, 4 Backend, 1 Research Engineer, 1 PM, Тимлид, PM, 2 аналитика

Ответственность

Проектирование архитектуры мультимодального ассистента с разделением потоков данных
Интеграция моделей обработки текста, аудио и изображений в единый inference-контур
Реализация обработки аудио через Whisper с нормализацией и постобработкой транскрипций
Использование PySpark для обработки больших массивов clickstream-данных и подготовки фичей для моделей.
Работа с данными в Hadoop-кластере для хранения и агрегации пользовательских событий.
Анализи clickstream-события пользователей для построения поведенческих фичей и улучшения ранжирования.
Использование vision-моделей (CLIP / ViT) для извлечения визуальных эмбеддингов
Интеграция LLM (Llama / Qwen) для reasoning и генерации ответов
Разработка контроллера мультимодальных токенов и логики маршрутизации между моделями
Оптимизация пайплайна для последовательных и смешанных мультимодальных запросов
Разработка гибридной рек. модели (нейросетевые эмбеддинги + LightGBM)
Feature engineering на основе пользовательского поведения
Построение офлайн-пайплайнов обучения и онлайн-инференса
Проведение A/B-тестов и анализ влияния моделей на продуктовые метрики
Интеграция моделей в продакшн-контур

Технологии и инструменты

A/B testing, Clickhouse, Docker, FastAPI, Git, Jira, Lightgbm, llama, Numpy, Python, PyTorch, SQL, Whisper, Airflow, Hugging Face Transformers, CLIP, Qwen, ViT, нейросетевые эмбеддинги, hybrid recommender systems, офлайн и онлайн-метрики

Период работы/продолжительность

Март 2023 г. - Июль 2024 г.

NLU-модуль голосового ассистента

Описание задачи/проекта

Разработка отдельного NLU-модуля для понимания пользовательских запросов в голосовом ассистенте: интенты, сущности, контекст диалога.

Позиция на проекте

AI / NLP Engineer

Размер команды

Тимлид, PM, 4 ML-инженера, 3 Backend, 2 QA

Ответственность

Обучение моделей intent classification и slot filling
Fine-tuning трансформеров под разговорную речь
Работа с короткими и многошаговыми диалогами
Анализ ошибок распознавания и редких кейсов
Интеграция моделей в сервисы ассистента
Оптимизация скорости инференса
Использование Tesseract в OCR-пайплайнах для извлечения текста из документов с последующей NLP-обработкой (spaCy/Natasha).
Разработка и дообучение NLP-моделей для intent detection и slot filling
Fine-tuning трансформеров (BERT, RuBERT, GPT-like модели)
Построение пайплайнов обработки данных и обучения моделей
Интеграция моделей в backend-сервисы ассистента
Анализ ошибок, работа с edge-cases и длинными диалогами

Технологии и инструменты

Bert, Docker, FastAPI, Git, Grpc, Python, PyTorch, Spark, SQL, transformers, Hugging Face Transformers, RuBERT, GPT-like модели, ML-эксперименты, офлайн-оценка качества моделей, MCP-servers

Период работы/продолжительность

Февраль 2021 г. - Март 2023 г.

Бакалавр

Название учебного заведения/курса

Университет ITMO

Специальность

Факультет технологий искусственного интеллекта, Бакалавр Инженерии ИИ

Не нашли, кого искали?

Оставьте заявку и, наша команда в кратчайшие сроки подберёт необходимого специалиста за вас!

Помните, что заключение договора и оплата услуг происходит после того, как вы выбрали специалиста

Илья В. , Senior, ML-инженер

О специалисте

Примеры работ

Образование