Екатерина Д. , Middle+, ML-инженер

Екатерина Д.

Беларусь, Минск

2 860 ₽/час 457 600 ₽/мес. без НДС

ML-инженер
Middle+

Опыт работы:: От 3 до 6 лет
Языки:: Русский — C2
ПисьменныйРазговорный
Белорусский — C2
ПисьменныйРазговорный
Английский — B2
ПисьменныйРазговорный

Навыки

Python

Bash

C++

Java

Kubernetes

HF Transformers

Apache AirFlow

SQL Server

SQLite

Neo4j

Git

Bitbucket

Prometheus

Grafana

langgraph

Azure

aks

Azure ML

Blob Storage

Jenkins

ELK Stack

n8n

langchain

Jira

Google Cloud (AI Platform, GKE)

HTTP

AWS

Cursor

WindSurf

Trade-off Management

Fine-tuning Models

Precision-Recall Trade-Off

Modularity

Pipeline Orchestration

Pipeline Models

GraphRAG

Linux

macOS

Windows

Technology:

SQL

Applications:

Docker

Database:

MySQL

PostgreSQL

MongoDB

Source_control:

GitHub

GitLab

GitLab CI/CD

Instruments:

Swagger

Формат работы

Удалённо

Описание о специалисте

Инженер по машинному обучению с более чем 5-летним опытом разработки AI-систем, с фокусом на агентных и мультиагетных системах, fine-tuning моделей под предметную область и автономных workflow на базе LLM. Разрабатывала production-решения в области ML с расширенным мониторингом, высоким уровнем качества сервисов и масштабируемым деплоем. Имеет опыт создания интеллектуальных ассистентов, объединяющих оркестрацию агентов, retrieval-augmented подходы и предиктивные компоненты в единую архитектуру.

Увлечена интеграцией agentic AI-подходов с ML-инжинирингом и backend-архитектурой для создания прозрачных, надёжных и ориентированных на пользователя систем.

Автономная мультиагентная платформа для роста и креативных задач

Описание задачи/проекта

Сложная мультиагентная система для автоматизации полного growth-цикла DTC/eCommerce-брендов — от анализа рынка и аудитории до формирования креативной стратегии, генерации контента, построения инфлюенсер-воронок, динамического ценообразования и performance-маркетинга. Реализован анализ конкурентов и пользовательских инсайтов на базе GraphRAG, семантическая SEO-кластеризация и прогнозирование спроса на уровне SKU, пайплайны для генерации вариантов карточек товаров, сценариев UGC, медиапланов и кросс-канальных кампаний для Meta, TikTok и Google. Платформа была контейнеризирована, внедрён трейсинг через Langfuse и оптимизированы workflow для итеративной автоматизации роста.

Позиция на проекте

Инженер по машинному обучению

Ответственность

Спроектировала мультиагентную архитектуру на базе LangGraph с реализацией контрактов агентов, типизированных схем сообщений, общих хранилищ памяти и Supervisor-оркестрации для детерминированного выполнения сценариев
Реализовала пайплайны загрузки и трансформации данных из Apify-скрапов в PostgreSQL, Qdrant и Neo4j с использованием унифицированных аналитических схем
Разработала endpoints для внешних интеграций на FastAPI, обеспечив приём вебхуков, асинхронную диспетчеризацию задач и аутентифицированный API-доступ для внутренних агентов
Добавила слой событийной обработки на базе Kafka для стриминга обновлений конкурентов и изменений цен
Построила GraphRAG-слой инсайтов для кластеризации конкурентов и извлечения болевых точек аудитории
Реализовала пайплайны domain fine-tuning на базе LoRA для адаптации LLM под тон бренда и требования рекламных платформ
Разработала пайплайны валидации и безопасности с детекцией запрещённых паттернов, фактологическими проверками, классификаторами тональности и автоматической логикой восстановления и повторной генерации
Создала модуль генерации визуальных промптов с мультимодальной маршрутизацией, валидацией бренд-стиля, правилами форматирования и проверками консистентности экспорта для креативных workflow
Интегрировала API Meta, TikTok и Google Ads с автоматизацией генерации кампаний, загрузки креативов, построения аудиторий, сбора телеметрии и плановой синхронизации performance-метрик
Контейнеризировала все сервисы с использованием Docker, настроил миграции через Alembic и реализовал CI/CD-пайплайны для деплоя агентов и версионированного rollout моделей
Добавила observability с использованием Langfuse, Prometheus и Grafana
Автоматизировала A/B/N-тестирование и непрерывные циклы оптимизации промптов

Технологии и инструменты

Alembic, Docker, Git, Grafana, Kafka, LoRa, Neo4j, PostgreSQL, Prometheus, Python, Qdrant, Redis, Swagger, langgraph, openai api, Langfuse, Apify

Период работы/продолжительность

Сентябрь 2024 г. - Июль 2026 г.

Автономный агент аналитики данных и отчётности

Описание задачи/проекта

Автономный аналитический агент, заменивший ручные процессы отчётности на базе Excel и Access, используемые в крупных FMCG-компаниях. Система обрабатывает разнородные данные по продажам, логистике и финансам, выполняет сверку еженедельных датасетов из ERP и Access, формирует KPI-дашборды, строит прогнозные модели и автоматически генерирует готовые для менеджмента отчёты в форматах Excel и PowerPoint. Включает «план–факт», выявление первопричин отклонений и систему алертов по KPI с детализацией по SKU, регионам и каналам. Агент интегрирован в корпоративные контуры отчётности, что позволило существенно сократить нагрузку на аналитиков и ускорить цикл принятия управленческих решений.

Позиция на проекте

Инженер по машинному обучению

Ответственность

Спроектировала и реализовала архитектуру аналитического агента на базе LLM с интеграцией генерации SQL, retrieval-слоёв и автоматизированных пайплайнов интерпретации инсайтов под единым управляющим модулем
Разработала модули аналитических вычислений для FMCG-метрик с использованием векторизованных операций и SQL pushdown в PostgreSQL
Интегрировала RabbitMQ в качестве слоя очередей задач, вынеся фоновые операции в асинхронные пайплайны
Разработала API-слой на Flask, предоставляющий аналитические endpoints, триггеры генерации отчётов, ingestion-вебхуки и внутренние сервисные интерфейсы
Реализовала автоматизированный генератор отчётов с построением pivot-таблиц, KPI-дашбордов, правил условного форматирования и готовых для менеджмента рабочих листов
Построила пайплайн генерации PowerPoint-презентаций с брендированными слайдами, графиками, динамическими аннотациями KPI и текстовыми инсайтами, извлекаемыми агентом
Добавила intent-driven модуль генерации SQL, обеспечив NL-to-query трансляцию, schema-aware валидацию и синтез результатов с использованием RAG-контекста
Построила надёжную подсистему ingestion с подключением ODBC, Access, Excel, ERP-выгрузок и OneDrive, реализовав нормализацию схем, дедупликацию, разрешение конфликтов и автоматическую еженедельную сверку датасетов
Реализовала прогнозные движки на базе LightGBM и классических моделей временных рядов для задач динамического ценообразования
Разработала documentation-aware RAG-слой с индексацией SKU-справочников и корпоративных определений для генерации предметно корректных аналитических комментариев
Контейнеризировала агентную систему с использованием Docker, настроил CI/CD-процессы, автоматическое обновление моделей и планировщик выполнения задач
Добавила дашборды наблюдаемости на базе Prometheus и Grafana для мониторинга состояния агента, прозрачности датапайплайнов и долгосрочных метрик производительности

Технологии и инструменты

Docker, Git, Grafana, langchain, Lightgbm, ODBC, PostgreSQL, Prometheus, Python, RabbitMQ, Redis, Scikit-learn, openai api, ChromaDB, RAG, OneDrive API

Период работы/продолжительность

Июнь 2023 г. - Август 2024 г.

AI-ассистент для автоматизации клиентской поддержки

Описание задачи/проекта

Многоязычный AI-ассистент для автоматизации процессов клиентской поддержки продуктовой линейки в сфере биотехнологий. Система классифицирует обращения, извлекает контекстные данные из внутренних источников и генерирует обоснованные ответы с соблюдением требований комплаенса и фактологической корректности. Была построена инфраструктура retrieval-augmented generation (RAG), объединяющая поиск по базе знаний, адаптивное формирование промптов и непрерывный мониторинг, что обеспечивает надёжность ответов, контроль задержек и безопасную интеграцию ассистента в CRM-процессы.

Позиция на проекте

Инженер по машинному обучению

Ответственность

Спроектировала сквозную архитектуру, объединяющую распознавание интентов, векторный retrieval и контролируемые модули генерации
Построила retrieval-augmented generation пайплайн, объединяющий семантический поиск, оценку релевантности и динамическую инъекцию контекста
Применила fine-tuning на базе QLoRA для адаптации поведения модели под биотехнологический домен, требования комплаенса и продуктовую лексику поддержки
Разработала слой обработки запросов и оркестрации с идемпотентными workflow, защитой от повторных попыток и rate-limiting
Построила сервисный слой на FastAPI с chat-endpoints, пайплайнами guardrails, маршрутами метаданных и хуками интеграции с CRM
Автоматизировала A/B-тестирование и непрерывную оптимизацию промптов на основе метрик обратной связи из диалогов
Интегрировала дашборды и alert-ботов для контроля качества, аудитов комплаенса и аналитики диалогов
Реализовала многоуровневые guardrails для обеспечения фактологической корректности, маскирования PII, фильтрации токсичности и контроля тональности
Развернула полный стек наблюдаемости, включая трейсинг, классификацию ошибок, конверсионные воронки и алерты инцидентов в реальном времени
Реализовала кеширование, балансировку нагрузки и асинхронный inference для стабилизации производительности под production-нагрузкой
Внедрила аналитику для выявления long-tail запросов, обнаружения пробелов в ответах и анализа паттернов использования
Поддерживала высокое качество кодовой базы через автоматизированное тестирование, CI/CD-процессы и версионируемые конфигурации промптов
Интегрировала backend-микросервис с CRM API для сквозного трекинга кейсов, follow-up взаимодействий и автоматического логирования ответов
Создала фреймворк оценки и бенчмаркинга, измеряющий фактологическую согласованность, покрытие интентов и языковую ясность по различным вариантам промптов

Технологии и инструменты

Docker, FastAPI, Git, Grafana, langchain, PostgreSQL, Prometheus, Pytest, Python, Redis, Swagger, transformers, openai api, RAG, QLoRA, LanceDB

Период работы/продолжительность

Апрель 2022 г. - Май 2023 г.

Система прогнозирования и оптимизации автопарка

Описание задачи/проекта

Платформа прогнозирования и оптимизации для интеллектуального управления автопарком в сфере городской микромобильности. Система прогнозирует краткосрочные колебания спроса, выявляет операционные аномалии и формирует ежедневные задачи по ребалансировке тысяч транспортных средств в нескольких регионах. Был реализован полный жизненный цикл данных и моделей — от загрузки телеметрии и внешних факторов окружающей среды до адаптивного переобучения, валидации, деплоя и оркестрации на уровне бизнес-логики. Платформа интегрирована в операционные процессы, обеспечивая аналитику в реальном времени, мониторинг дрейфа моделей и автоматические уведомления для заинтересованных сторон.

Позиция на проекте

ML Инженер

Ответственность

Спроектировала распределённый пайплайн прогнозирования на базе Python, Airflow, ClickHouse и PostgreSQL, реализовав DAG’и ingestion для телеметрии, погодных данных и операционных метаданных с валидацией схем, дедупликацией и логикой восстановления после сбоев
Построила многоэтапный workflow оркестрации моделей в Airflow с ежедневным инкрементальным переобучением, автоматическим подбором гиперпараметров через Optuna, гейтами валидации, canary-деплоями и fallback-логикой, сформировав единый слой governance пайплайнов
Реализовала подсистему оптимизации и маршрутизации, формирующую приоритетные задачи ребалансировки на базе кастомных эвристик и линейного программирования, с предоставлением функциональности через FastAPI-микросервисы
Разработала внутренние приложения на Streamlit для диспетчеров и аналитиков с картографическими визуализациями, диагностикой временных рядов, модулями интроспекции моделей и детальной аналитикой операционных KPI
Создала слой наблюдаемости в реальном времени с использованием Prometheus и Grafana, реализовав экспорт метрик, правила алертинга, SLO-дашборды и автоматизированных ботов для отчётов об инцидентах через n8n
Настроила фреймворк управления экспериментами с использованием MLflow Tracking, трекинга lineage, воспроизводимости окружений, версионирования датасетов и управления артефактами моделей
Контейнеризировала все сервисы с использованием Docker и интегрировал CI/CD для планового переобучения моделей, деплоя DAG’ов, миграций схем данных и обновлений операционных workflow
Реализовала модули генерации гео-поведенческих признаков с использованием NumPy и Pandas, materialized views в ClickHouse и реестров фич, синхронизированных через MLflow
Разработала стек временно-пространственного моделирования, объединяющий Prophet, статистические бейзлайны и geo-кластеризованные экстракторы признаков

Технологии и инструменты

Clickhouse, Docker, FastAPI, Git, Grafana, MLflow, n8n, Optuna, PostgreSQL, Prometheus, Python, Streamlit, Airflow, Prophet

Период работы/продолжительность

Декабрь 2020 г. - Март 2022 г.

Пайплайн обнаружения мошенничества и аномалий

Описание задачи/проекта

Платформа обнаружения аномалий для операций в сфере шеринговой мобильности. Система выявляет нетипичные поведенческие паттерны, аномалии сенсоров и потенциальную мошенническую активность в телеметрии автопарка. Создан надёжный фреймворк обработки данных и генерации признаков, преобразующий высокочастотные ride- и IoT-данные в структурированные аналитические представления для стабильной детекции и интерпретируемости моделей. Настроены воспроизводимые пайплайны обучения, непрерывную валидацию и drift-aware мониторинг для поддержания устойчивости сигналов детекции в быстро меняющейся среде.

Позиция на проекте

ML Инженер

Ответственность

Спроектировала модульную архитектуру детекции аномалий на базе Python, XGBoost, статистических детекторов и вероятностных эвристик, оркестрируемую автоматизированными пайплайнами с воспроизводимой предобработкой и управлением feature registry
Построила единый MLflow-слой управления пайплайнами, объединяющий feature registry, упаковку артефактов и воспроизводимые workflow предобработки
Создала унифицированный слой preprocessing с feature registry, версионируемыми трансформациями и упаковкой артефактов на базе Pickle для консистентного inference
Контейнеризировала всю платформу с использованием Docker, обеспечив воспроизводимые окружения, автоматизированные сборки и процессы деплоя
Реализовала фреймворк мониторинга дрейфа с метриками стабильности признаков, PSI и JS-дивергенцией, временными валидаторами согласованности и автоматическими триггерами переобучения
Построила подсистему ingestion и трансформации данных для высокочастотных телеметрических потоков с векторизованным парсингом траекторий, очисткой выбросов и geo-temporal генерацией признаков с SQL pushdown в PostgreSQL
Разработала продвинутые модули feature engineering для выявления аномалий движения, сигнатур ускорения, всплесков скорости, нарушений геозон и метрик плотности событий с использованием Pandas, NumPy и кастомных Cython-ускоренных ядер
Реализовала автоматизированные workflow обучения с Optuna HPO, модулями кросс-валидации, калибровкой порогов принятия решений и защитой отката, интегрированной с Git-based lineage экспериментов
Разработала аналитические дашборды на Streamlit для визуализации кластеров аномалий, зон ложных срабатываний, распределений уверенности моделей и инструментов анализа временных рядов для команд antifraud
Добавила мониторинг детекции в реальном времени с маршрутизацией алертов, индикаторами нестабильности сенсоров и логикой оценки операционных рисков, доступной через FastAPI endpoints с документацией Swagger

Технологии и инструменты

Docker, Git, Optuna, PostgreSQL, Python, Streamlit, Swagger, XGBoost, pickle

Период работы/продолжительность

Декабрь 2019 г. - Ноябрь 2020 г.