Андрей К., Middle, Data инженер

Андрей К.
Россия, Краснодар
2 530 ₽/час 404 800 ₽/мес.
    Data инженер
  • Middle
Опыт работы:

Опыт работы: 3,5 года

О специалисте

Навыки
Technology:
SQL
HTML5
CSS3
REST
Python
Ruby
Airflow
PySpark
Pydantic
Requests
Django
Rails
Pytest
Psycopg2
SQLAlchemy
RabbitMQ
Kafka
GreenPlum
Clickhouse
CI/CD
RSpec
GraphQL
Hadoop
Big Data
Grafana
Prometheus
Spark
DWH
ETL/ELT
OLAP/OLTP
Jupyter Notebook
Git
Jira
Confluence
Source_control:
GitHub
GitLab
Applications:
Docker
Database:
PostgreSQL
Формат работы
Удалённо
Описание о специалисте

Навыки:

Разработка и поддержка хранилищ данных:

● Проектирование и внедрение архитектуры данных.

● Оптимизация процессов обработки данных для снижения времени отклика и повышения производительности.

● Миграция legacy-решений на современные инструменты (например, SQLMesh, dbt).

● Cоздание API-интеграций с внешними сервисами (Kafka, RabbitMQ и др.)


Интеграция данных:

● Настройка ETL/ELT-процессов с использованием таких инструментов, как Apache Airflow, NiFi.

● Интеграция данных из различных источников (базы данных, файлы, IoT, REST API, clickstream и т.д.).


Работа с облачными технологиями:

● Использование облачных сервисов, таких как Yandex Cloud (S3, Managed Kafka, Managed PostgreSQL).

● Настройка и управление облачными хранилищами данных (PostgreSQL, ClickHouse, TimescaleDB).

● Разработка и поддержка инструментов доступа к Data Lake


Автоматизация и CI/CD:

● настройка процессов CI/CD для автоматизации тестирования и развертывания кода (GitLab, GitHub). Работа с Unix-системами и CLI


Бизнес-аналитика и визуализация данных:

● Создание витрин данных и отчетов для бизнес-пользователей.


Тестирование и обеспечение качества данных:

● Внедрение дата-тестов и юнит-тестов для проверки качества данных (SQLMesh, dbt).

● Документирование витрин данных для повышения прозрачности и удобства использования.


Примеры работ

Real-time Fraud Detection System
Описание задачи/проекта

Проект направлен на разработку системы для обнаружения мошенничества в режиме реального времени с использованием технологий больших данных. Система анализирует транзакции с использованием данных о клиентах, их картах, местах проживания и истории звонков

Позиция на проекте
Data Engineer
Размер команды
3 Data engineer, 2 Data Analyst, 1 Business Analyst
Ответственность
  1. Разработка и оптимизация структуры баз данных, написание сложных SQL- и pgSQL-запросов для обработки и анализа данных
  2. Разработка и поддержка систем обработки потоковых данных с использованием Apache Kafka
  3. Разработка, тестирование и мониторинг ETL/ELT процессов с использованием Apache Airflow для автоматизации потоков данных
  4. Работа с различными источниками данных, включая реляционные базы данных, Hadoop HDFS, веб-сервисы и логи приложений
  5. Использование Hadoop, Hive, Hue для обработки и анализа больших объемов данных
  6. Построение производных таблиц и витрин в GreenPlum для удовлетворения бизнес-требований по аналитике
  7. Реализация механизмов валидации и верификации данных для обеспечения высокого качества и надежности данных
  8. Создание и поддержка актуализированной проектной документации, технических спецификаций и пользовательских руководств в Confluence
  9. Ведение и декомпозиция задач в Jira
  10. Тесное сотрудничество с аналитиками данных, разработчиками и бизнес-пользователями для определения требований к данным и решения бизнес-задач
  11. Создал и оптимизировал процессы загрузки и обработки данных, что значительно повысило производительность системы и ускорило время обработки транзакций для обнаружения мошенничества
  12. Предложил и внедрил автоматизацию повторяющихся процессов, таких как регулярное обновление и очистка данных, что снизило время на рутинные задачи и повысило общую эффективность команды
Технологии и инструменты
Apache Hadoop, Confluence, DBT, GitLab, HDFS, Hive, Jira, Kafka, NiFi, pgAdmin, PostgreSQL, PySpark, Python, Spark, SQL, Airflow, Jupyter Notebook, Рandas, Greеnplum
Период работы/продолжительность
Сентябрь 2023 г. - Июнь 2025 г.
HealthCare(USA)
Описание задачи/проекта

Проект направлен на создание надежных сервисов и программ лояльности для клиентов учреждений

Позиция на проекте
Ruby/Python - разработчик
Размер команды
4 Backend Developers, 2 Frontend Developers, 1 Business Analyst, 1 Team Lead, 2 QA
Ответственность
  1. Разработка приложений и микросервисов на Ruby и Python
  2. Написание юнит-тестов и проведение тестирования.
  3. Создание визуальных дашбордов на Grafana
  4. Реализован сбор статистики с помощью Prometheus/Grafana
  5. Создал собственную библиотеку для Ruby (https://rubygems.org/gems/freight_calc)
Технологии и инструменты
Grafana, PostgreSQL, Prometheus, PySpark, Python, Ruby
Период работы/продолжительность
Декабрь 2022 г. - Сентябрь 2023 г.
Shieldpay
Описание задачи/проекта

Цели проекта - Разработка платформы для безопасного и надежного управления финансовыми операциями, интегрирующей различные сторонние системы и оптимизирующей выплаты продавцам на торговых площадках

Позиция на проекте
Data Engineer
Размер команды
2 Data engineer, 1 Data Analyst, 1 Team lead
Ответственность
  1. Создал промежуточные таблицы в Greenplum для хранения очищенных и трансформированных данных
  2. Использовал ClickHouse для хранения и анализа больших объемов данных в реальном времени
  3. Разработал триггеры для выявления исключительных ситуаций на основе заданий от дата-аналитиков
  4. Создал и поддерживал актуализированную проектную документацию, технические спецификации и пользовательские руководства в Confluence
  5. Разработал проверку и тестирование кода в GitLab CI/CD, что позволило сократить количество ошибок при релизах новой версии ETL процессов. Сотрудничал с командой, использовал GitLab для управления кодом и совместной работы
  6. Участвовал в разработке документации по переносу витрин из PostgreSQL в ClickHouse
Технологии и инструменты
Apache Hadoop, Confluence, GitLab, HDFS, Hive, Jira, Kafka, PostgreSQL, Python, Spark, SQL, Airflow, Jupyter Notebook, Рandas, Greеnplum
Период работы/продолжительность
Декабрь 2021 г. - Декабрь 2022 г.
Строительная компания
Описание задачи/проекта

Цели проекта - Разработка хранилища данных для анализа статистики роста цен на жилье и прогнозирования объемов продаж жилых помещений. Также анализ рыночной стоимости первичного, вторичного и тд жилья. Анализ себестоимости расходных материалов.

Позиция на проекте
Data Engineer / Backend Developer
Размер команды
2 DE, 2 DE-BD, 1 Data Analyst, 1 Team lead
Ответственность
  1. Разработка Backend часть приложения, включая автотесты
  2. Проводил нагрузочное и интеграционное тестирования
  3. Рефакторинг и оптимизация запросов и скриптов для повышения производительности хранилища данных.
  4. Разработал процессы для интеграции DWH с API и загрузки данных из файлов
  5. Создал и поддерживал актуализированную проектную документацию, технические спецификации и пользовательские руководства в Confluence
  6. Использовал CI/CD Gitlab для контроля версий
  7. Проектирование и внедрение решений для улучшения масштабируемости и отказоустойчивости хранилища данных.
  8. Консультирование аналитиков и исследователей данных по вопросам работы с хранилищем данных и интеграции новых источников данных.
  9. Решение вопросов технического сопровождения и обеспечение бесперебойной работы хранилища данных.
  10. Мои достижения: Участвовал в разработке аналитических моделей, повысивших точность прогнозов средней стоимости квадратного метра на рынке недвижимости на 15%.
  11. Внедрил систему резервного копирования и восстановления данных, снизив время простоя хранилища до минимума и обеспечив сохранность данных при авариях.
Технологии и инструменты
Apache Hadoop, Confluence, GitLab, HDFS, Hive, Jira, Kafka, PostgreSQL, Ruby, Spark, SQL, Airflow, Jupyter Notebook
Период работы/продолжительность
Июнь 2021 г. - Декабрь 2021 г.
Аналогичные специалисты
Не нашли, кого искали?

Оставьте заявку и, наша команда в кратчайшие сроки подберёт необходимого специалиста за вас!

Помните, что заключение договора и оплата услуг происходит после того, как вы выбрали специалиста