Юрий К. , Senior, Data инженер

Юрий К.

Россия, Екатеринбург

2 990 ₽/час 478 400 ₽/мес. без НДС

Data инженер
Senior

Опыт работы:: Более 6 лет
Языки:: Русский — C2
ПисьменныйРазговорный
Английский — B1
ПисьменныйРазговорный

Навыки

Hadoop

HDFS

Yarn

Hive

Oozie

hue

Hbase

Spark

Scala

PySpark

Airflow

Java

JPA

Hibernate

Spring

AMPQ

RabbitMQ

JUnit

Mockito

Maven

Tomcat

Python

Anaconda

Numpy

Pandas

Scikit-learn

NLTK

Scrapy

Jupyter

Celery

Flask

Django

Elasticsearch

Redis

Git

SVN

Upsource

TeamCity

Redmine

idea

PyCharm

ER\Studio

LaTex

Oracle Data Integrator

Kubernetes

Linux

Deltalake

Delphi

VBA

C++

OpenGL

UML

IBM Rational Rose

Unix

Data vault

Star

Snowflake

SCD

Pl/SQL

Technology:

Node.js

JavaScript

Database:

Oracle

PostgreSQL

MongoDB

Test:

YouTrack

Applications:

Docker

Формат работы

Удалённо

Описание о специалисте

Деловые и личные качества

- аналитический склад ума, ответственность, доброжелательность;

- способность самостоятельно принимать решения, умение вести конструктивный диалог;

- желание расти как профессионал в области информационных технологий;

- увлекаюсь футболом и спортивными бальными танцами.

О себе

- технический английский;

- хорошая математическая подготовка;

- опыт работы с основными структурами данных, алгоритмами, ООП, принципами, общими протоколами и форматами данных;

- знание общих принципов построения DWH и озер данных;

- понимание машинного обучения (классификация, регрессия, кластеризация, ранжирование) и NLP.

Сертификаты:

Hadoop. Система для обработки больших объемов данных 2016-01-01

Web технологии 2016-01-01

Exploratory data analysis 2015-01-01

Getting and Cleaning Data 2015-01-01

HTML5.1x: Web Design Fundamentals (Part 1) 2015-01-01

Introduction to Bootstrap 2015-01-01

MongoDB for Developers (Python) 2015-01-01

MongoDB for Node.js Developers 2015-01-01

R programming 2015-01-01

Scalable Machine Learning 2015-01-01

Web Application Architectures 2015-01-01

An Introduction to Interactive Programming in Python 2014-01-01

Machine learning 2014-01-01

Programming Mobile Applications for Android Handheld Systems 2014-01-01

The Data Scientist’s Toolbox 2014-01-01

Алгоритмы и структуры данных 2014-01-01

Введение в Linux 2014-01-01

Банк

Описание задачи/проекта

перенос загрузки данных в витрины BI-системы с прежней платформы на Hadoop/Hive с орекстрацией Oozie на новую платформу S3/Iceberg с орекстрацией Airflow

Позиция на проекте

Data Engineer

Размер команды

тех-лид, владелец продукта, 4 дата-инженера на миграции, 2 разработчика генератора потоков

Ответственность

Перенос ETL--пайплайнов с Hadoop/Hive/Oozie на Spark+Airflow для загрузки данных в S3/Iceberg.
Создание на Spark+Airflow пайплайнов обратных реплик из S3/Iceberg в Hadoop/Hive (сохранение работоспособности прежней платформы на время завершения переноса).
Отправка через CI-CD на тестовой/продовый стенды и проверка работоспособности.
Обеспечение качества данных, их валидация и контроль целостности.
Ведение документации по пайплайнам и процессам ETL.
Участие в планировании задач, оценке сроков и распределении ресурсов внутри команды.
Взаимодействие с аналитиками и владельцами данных для уточнения требований и улучшения процессов обработки данных.
Создание расчётных процедур на SQL / PL/pgSQL для анализа данных.

Технологии и инструменты

GitLab, Hadoop, Hive, hue, Jupyter, PySpark, Airflow, Oozie

Период работы/продолжительность

Июль 2025 г. - Июль 2026 г.

Аналитическая платформа по анализу активности ВК

Описание задачи/проекта

создание платформы по анализу активности людей и сообществ в социальной сети ВКонтакте целью определения наиболее перспективных сообществ для рекламодателей.

Позиция на проекте

Data Engineer/DWH Developer

Размер команды

3 data-инженера, 2 аналитика, 3 backend-разработчика, 2 frontend-разработчика, 2 тестировщика, 1 product owner, 1 team lead (отдельно devops)

Ответственность

Создание пайплайнов на Spark + Airflow для загрузки/выгрузки данных в/из Hdfs, Hive, ClickHouse, YT.
Создание расчётных пайплайнов наполнения данными витрин на Spark + Airflow по описанному аналитиком в ТЗ алгоритму.
Перенос кода-прототипа NLP-расчётов аналитиков (пример: определение тональности комментариев к посту) из Pandas на Spark для работы на кластере.
Участие в переезде с Hadoop/Spark в YT (перенос кода пайплайнов со Spark + Airflow на SPYT).
Разработка автоматических тестов и мониторинг для новых и существующих пайплайнов.
Обеспечение качества данных, их валидация и контроль целостности.
Ведение документации по архитектуре данных, пайплайнам и процессам ETL.
Участие в планировании задач, оценке сроков и распределении ресурсов внутри команды.
Обеспечение интеграции новых источников данных и расширение функциональности платформы.
Взаимодействие с аналитиками и разработчиками для уточнения требований и улучшения процессов обработки данных.
Создание расчётных процедур на SQL / PL/pgSQL для анализа данных.

Технологии и инструменты

CI/CD, Clickhouse, Confluence, Git, Grafana, Hadoop, HDFS, Hive, Jira, Kubernetes, Linux, PostgreSQL, Prometheus, PySpark, S3, Airflow, YTsaurus, SCD, FeatureStore

Период работы/продолжительность

Август 2024 г. - Июль 2025 г.

Единый Семантический слой

Описание задачи/проекта

Сбер. Сбор данных из разных систем-источников банка с приведением их в одну унифицированную форму для передачи дальше в аналитические системы в единообразном виде.

Позиция на проекте

Data Engineer/DWH Developer

Размер команды

4 data-инженера, 4 аналитика, 1 product owner, 1 team lead, 1 scrum master (отдельно devops)

Ответственность

Создание пайплайнов на Spark на Scala для загрузки данных из ods-слоя в Hive в dds-слой в Hive.
Создание расчётных пайплайнов обогащения данных в dds-слое на Spark на Scala по описанному аналитиком в ТЗ алгоритму.
Загрузка справочников с мета-данными из PostgreSQL в Hive.
Разработка и оптимизация пайплайнов на Spark (Scala) для автоматической загрузки данных из различных систем-источников в ods-слой.
Создание расчётных пайплайнов для обогащения данных в dds-слое согласно бизнес-правилам и алгоритмам, описанным аналитиками.
Реализация автоматической загрузки и обновление справочников с мета-данными из PostgreSQL в Hive.
Обеспечение обработки и трансформации данных с использованием Data Vault модели для повышения качества аналитической базы.
Внедрение механизмов мониторинга и логирования для пайплайнов, что обеспечило их стабильную работу.
Разработка процедуры автоматического тестирования ETL-процессов и их интеграции в CI/CD.
Ведение документации по архитектуре данных, схемам и бизнес-правилам обработки.
Участие в планировании задач, оценке сроков и распределении работы внутри команды.
Обеспечение безопасности и контроль доступа к данным на всех этапах обработки.
Взаимодействие с аналитиками и бизнес-пользователями для уточнения требований к данным и улучшения процессов.

Технологии и инструменты

CI/CD, Confluence, Git, Hadoop, HDFS, Hive, Jira, JSON, Kubernetes, Linux, PostgreSQL, S3, Scala, Spark, Parquet, Data vault, Spark DataFrames

Период работы/продолжительность

Июль 2023 г. - Июль 2024 г.

Централизованное аналитическое хранилище

Описание задачи/проекта

проект для Почты России. Создание централизованного аналитического хранилища для сбора данных ото всех почтовых отделений для предоставления сводной информации головному подразделению.

Позиция на проекте

Data Engineer/DWH Developer

Размер команды

5 data-инженеров, 6 аналитиков, 4 тестировщика, 2 product owner, 1 team lead, 1 product manager, 4 devops

Ответственность

Создание пайплайнов на Spark на Scala конвертации данных из raw-слоя (данные в raw-слой приходили из внешней шины на Kafka, записывались в avro-формат) в ods-слой в Hive.
Поддержка и развитие генератора на Scala расчётных sql-скриптов для Hive.
Наполнение мета-данными в PostgreSQL настроечных таблиц для создания расчётных sql-скриптов.
Создание пайплайнов наполнения и обогащения данных из ods-слоя в dds-слой на основе этого генератора.
Выгрузка данных прежней версии хранилища из Greenplum в Hive на Spark на Scala.
Участие в переезде со Spark на Scala на PySpark + Airflow (перенос кода пайплайнов со Scala на Python, создание дагов для Airflow).
Обеспечение мониторинга и логирования всех этапов обработки данных для быстрого выявления и устранения ошибок.
Ведение документации по архитектуре, схемам данных и бизнес-правилам обработки для поддержки команды и дальнейшего развития системы.

Технологии и инструменты

CI/CD, Confluence, Git, GreenPlum, Hadoop, HDFS, Hive, hue, Jira, JSON, Kafka, Kubernetes, Linux, PostgreSQL, PySpark, Scala, Spark, Airflow, Flink, Parquet, Oozie, Deltalake, Data vault, Spark DataFrames

Период работы/продолжительность

Ноябрь 2021 г. - Июнь 2023 г.

Медиалогия

Описание задачи/проекта

создание платформы для мониторинга и анализа СМИ, соцсетей.и общественного мнения

Позиция на проекте

Data Engineer/Java Developer

Размер команды

2 data-инженера, 4 аналитика, 4 backend-разработчика, 4 frontend-разработчика, 3 тестировщика, 1 team lead, 1 product manager, 2 devops

Ответственность

Участие в качестве backend-разработчика Java в создании микросервисов web-портала для поиска аудиторий СМИ по различным показателям.
Создание микросервиса преобразования пользовательских запросов из web-портала в язык запросов ElasticSearch&.
Создание пайплайнов на Spark на Scala преобразования данных из промежуточного слоя в Hive и наполнения детального слоя в HBase.
Участие в поддержке и развитии расчётных пайплайнов на Spark на Scala в HBase, строящих профиль пользователя соцсетей, по алгоритмам аналитиков.
Наполнение итоговой базы данных полнотекстового поиска ElasticSearch из экосистемы сбора и анализа данных в Hadoop.

Технологии и инструменты

CI/CD, Confluence, Elasticsearch, Git, Hadoop, Hbase, HDFS, Hive, hue, Java, Jira, Kafka, Kubernetes, Linux, PostgreSQL, Scala, Spark, Oozie

Период работы/продолжительность

Январь 2020 г. - Ноябрь 2021 г.