Андрей К. , Middle, Data инженер

Андрей К.

Россия, Краснодар

2 530 ₽/час 404 800 ₽/мес. без НДС

Data инженер

Middle

Опыт работы:: Опыт работы: 3,5 года

Навыки

Technology:

SQL

HTML5

CSS3

REST

Python

Ruby

Airflow

PySpark

Pydantic

Requests

Django

Rails

Pytest

Psycopg2

SQLAlchemy

RabbitMQ

Kafka

GreenPlum

Clickhouse

CI/CD

RSpec

GraphQL

Hadoop

Big Data

Grafana

Prometheus

Spark

DWH

ETL/ELT

OLAP/OLTP

Jupyter Notebook

Git

Jira

Confluence

Source_control:

GitHub

GitLab

Applications:

Docker

Database:

PostgreSQL

Формат работы

Удалённо

Описание о специалисте

Навыки:

Разработка и поддержка хранилищ данных:

● Проектирование и внедрение архитектуры данных.

● Оптимизация процессов обработки данных для снижения времени отклика и повышения производительности.

● Миграция legacy-решений на современные инструменты (например, SQLMesh, dbt).

● Cоздание API-интеграций с внешними сервисами (Kafka, RabbitMQ и др.)

Интеграция данных:

● Настройка ETL/ELT-процессов с использованием таких инструментов, как Apache Airflow, NiFi.

● Интеграция данных из различных источников (базы данных, файлы, IoT, REST API, clickstream и т.д.).

Работа с облачными технологиями:

● Использование облачных сервисов, таких как Yandex Cloud (S3, Managed Kafka, Managed PostgreSQL).

● Настройка и управление облачными хранилищами данных (PostgreSQL, ClickHouse, TimescaleDB).

● Разработка и поддержка инструментов доступа к Data Lake

Автоматизация и CI/CD:

● настройка процессов CI/CD для автоматизации тестирования и развертывания кода (GitLab, GitHub). Работа с Unix-системами и CLI

Бизнес-аналитика и визуализация данных:

● Создание витрин данных и отчетов для бизнес-пользователей.

Тестирование и обеспечение качества данных:

● Внедрение дата-тестов и юнит-тестов для проверки качества данных (SQLMesh, dbt).

● Документирование витрин данных для повышения прозрачности и удобства использования.

Real-time Fraud Detection System

Описание задачи/проекта

Проект направлен на разработку системы для обнаружения мошенничества в режиме реального времени с использованием технологий больших данных. Система анализирует транзакции с использованием данных о клиентах, их картах, местах проживания и истории звонков

Позиция на проекте

Data Engineer

Размер команды

3 Data engineer, 2 Data Analyst, 1 Business Analyst

Ответственность

Разработка и оптимизация структуры баз данных, написание сложных SQL- и pgSQL-запросов для обработки и анализа данных
Разработка и поддержка систем обработки потоковых данных с использованием Apache Kafka
Разработка, тестирование и мониторинг ETL/ELT процессов с использованием Apache Airflow для автоматизации потоков данных
Работа с различными источниками данных, включая реляционные базы данных, Hadoop HDFS, веб-сервисы и логи приложений
Использование Hadoop, Hive, Hue для обработки и анализа больших объемов данных
Построение производных таблиц и витрин в GreenPlum для удовлетворения бизнес-требований по аналитике
Реализация механизмов валидации и верификации данных для обеспечения высокого качества и надежности данных
Создание и поддержка актуализированной проектной документации, технических спецификаций и пользовательских руководств в Confluence
Ведение и декомпозиция задач в Jira
Тесное сотрудничество с аналитиками данных, разработчиками и бизнес-пользователями для определения требований к данным и решения бизнес-задач
Создал и оптимизировал процессы загрузки и обработки данных, что значительно повысило производительность системы и ускорило время обработки транзакций для обнаружения мошенничества
Предложил и внедрил автоматизацию повторяющихся процессов, таких как регулярное обновление и очистка данных, что снизило время на рутинные задачи и повысило общую эффективность команды

Технологии и инструменты

Apache Hadoop, Confluence, DBT, GitLab, HDFS, Hive, Jira, Kafka, NiFi, pgAdmin, PostgreSQL, PySpark, Python, Spark, SQL, Airflow, Jupyter Notebook, Рandas, Greеnplum

Период работы/продолжительность

Сентябрь 2023 г. - Июнь 2025 г.

HealthCare(USA)

Описание задачи/проекта

Проект направлен на создание надежных сервисов и программ лояльности для клиентов учреждений

Позиция на проекте

Ruby/Python - разработчик

Размер команды

4 Backend Developers, 2 Frontend Developers, 1 Business Analyst, 1 Team Lead, 2 QA

Ответственность

Разработка приложений и микросервисов на Ruby и Python
Написание юнит-тестов и проведение тестирования.
Создание визуальных дашбордов на Grafana
Реализован сбор статистики с помощью Prometheus/Grafana
Создал собственную библиотеку для Ruby (https://rubygems.org/gems/freight_calc)

Технологии и инструменты

Grafana, PostgreSQL, Prometheus, PySpark, Python, Ruby

Период работы/продолжительность

Декабрь 2022 г. - Сентябрь 2023 г.

Shieldpay

Описание задачи/проекта

Цели проекта - Разработка платформы для безопасного и надежного управления финансовыми операциями, интегрирующей различные сторонние системы и оптимизирующей выплаты продавцам на торговых площадках

Позиция на проекте

Data Engineer

Размер команды

2 Data engineer, 1 Data Analyst, 1 Team lead

Ответственность

Создал промежуточные таблицы в Greenplum для хранения очищенных и трансформированных данных
Использовал ClickHouse для хранения и анализа больших объемов данных в реальном времени
Разработал триггеры для выявления исключительных ситуаций на основе заданий от дата-аналитиков
Создал и поддерживал актуализированную проектную документацию, технические спецификации и пользовательские руководства в Confluence
Разработал проверку и тестирование кода в GitLab CI/CD, что позволило сократить количество ошибок при релизах новой версии ETL процессов. Сотрудничал с командой, использовал GitLab для управления кодом и совместной работы
Участвовал в разработке документации по переносу витрин из PostgreSQL в ClickHouse

Технологии и инструменты

Apache Hadoop, Confluence, GitLab, HDFS, Hive, Jira, Kafka, PostgreSQL, Python, Spark, SQL, Airflow, Jupyter Notebook, Рandas, Greеnplum

Период работы/продолжительность

Декабрь 2021 г. - Декабрь 2022 г.

Строительная компания

Описание задачи/проекта

Цели проекта - Разработка хранилища данных для анализа статистики роста цен на жилье и прогнозирования объемов продаж жилых помещений. Также анализ рыночной стоимости первичного, вторичного и тд жилья. Анализ себестоимости расходных материалов.

Позиция на проекте

Data Engineer / Backend Developer

Размер команды

2 DE, 2 DE-BD, 1 Data Analyst, 1 Team lead

Ответственность

Разработка Backend часть приложения, включая автотесты
Проводил нагрузочное и интеграционное тестирования
Рефакторинг и оптимизация запросов и скриптов для повышения производительности хранилища данных.
Разработал процессы для интеграции DWH с API и загрузки данных из файлов
Создал и поддерживал актуализированную проектную документацию, технические спецификации и пользовательские руководства в Confluence
Использовал CI/CD Gitlab для контроля версий
Проектирование и внедрение решений для улучшения масштабируемости и отказоустойчивости хранилища данных.
Консультирование аналитиков и исследователей данных по вопросам работы с хранилищем данных и интеграции новых источников данных.
Решение вопросов технического сопровождения и обеспечение бесперебойной работы хранилища данных.
Мои достижения: Участвовал в разработке аналитических моделей, повысивших точность прогнозов средней стоимости квадратного метра на рынке недвижимости на 15%.
Внедрил систему резервного копирования и восстановления данных, снизив время простоя хранилища до минимума и обеспечив сохранность данных при авариях.

Технологии и инструменты

Apache Hadoop, Confluence, GitLab, HDFS, Hive, Jira, Kafka, PostgreSQL, Ruby, Spark, SQL, Airflow, Jupyter Notebook

Период работы/продолжительность

Июнь 2021 г. - Декабрь 2021 г.

Не нашли, кого искали?

Оставьте заявку и, наша команда в кратчайшие сроки подберёт необходимого специалиста за вас!

Помните, что заключение договора и оплата услуг происходит после того, как вы выбрали специалиста

Андрей К. , Middle, Data инженер

О специалисте

Примеры работ