Юрий К. , Senior, Data инженер

Male avatar
Юрий К.
Россия, Екатеринбург
2 760 ₽/час 441 600 ₽/мес. без НДС
Опыт работы:
Более 6 лет
Языки:

Русский — C2

ПисьменныйРазговорный

Английский — B1

ПисьменныйРазговорный

О специалисте

Навыки
Hadoop
HDFS
Yarn
Hive
Oozie
hue
Hbase
Spark
Scala
PySpark
Airflow
Java
JPA
Hibernate
Spring
AMPQ
RabbitMQ
JUnit
Mockito
Maven
Tomcat
Python
Anaconda
Numpy
Pandas
Scikit-learn
NLTK
Scrapy
Jupyter
Celery
Flask
Django
Elasticsearch
Redis
Git
SVN
Upsource
TeamCity
Redmine
idea
PyCharm
ER\Studio
LaTex
Oracle Data Integrator
S3
Kubernetes
Linux
Deltalake
Delphi
VBA
C++
OpenGL
UML
IBM Rational Rose
Unix
Data vault
Star
Snowflake
SCD
Pl/SQL
Technology:
Node.js
JavaScript
Database:
Oracle
PostgreSQL
MongoDB
Test:
YouTrack
Applications:
Docker
Формат работы
Удалённо
Описание о специалисте

Деловые и личные качества

- аналитический склад ума, ответственность, доброжелательность;

- способность самостоятельно принимать решения, умение вести конструктивный диалог;

- желание расти как профессионал в области информационных технологий;

- увлекаюсь футболом и спортивными бальными танцами.


О себе 

- технический английский;

- хорошая математическая подготовка;

- опыт работы с основными структурами данных, алгоритмами, ООП, принципами, общими протоколами и форматами данных;

- знание общих принципов построения DWH и озер данных;

- понимание машинного обучения (классификация, регрессия, кластеризация, ранжирование) и NLP.


Сертификаты:

Hadoop. Система для обработки больших объемов данных 2016-01-01

Web технологии 2016-01-01

Exploratory data analysis 2015-01-01

Getting and Cleaning Data 2015-01-01

HTML5.1x: Web Design Fundamentals (Part 1) 2015-01-01

Introduction to Bootstrap 2015-01-01

MongoDB for Developers (Python) 2015-01-01

MongoDB for Node.js Developers 2015-01-01

R programming 2015-01-01

Scalable Machine Learning 2015-01-01

Web Application Architectures 2015-01-01

An Introduction to Interactive Programming in Python 2014-01-01

Machine learning 2014-01-01

Programming Mobile Applications for Android Handheld Systems 2014-01-01

The Data Scientist’s Toolbox 2014-01-01

Алгоритмы и структуры данных 2014-01-01

Введение в Linux 2014-01-01

Примеры работ

Банк
Описание задачи/проекта

перенос загрузки данных в витрины BI-системы с прежней платформы на Hadoop/Hive с орекстрацией Oozie на новую платформу S3/Iceberg с орекстрацией Airflow

Позиция на проекте
Data Engineer
Размер команды
тех-лид, владелец продукта, 4 дата-инженера на миграции, 2 разработчика генератора потоков
Ответственность
  1. Перенос ETL--пайплайнов с Hadoop/Hive/Oozie на Spark+Airflow для загрузки данных в S3/Iceberg.
  2. Создание на Spark+Airflow пайплайнов обратных реплик из S3/Iceberg в Hadoop/Hive (сохранение работоспособности прежней платформы на время завершения переноса).
  3. Отправка через CI-CD на тестовой/продовый стенды и проверка работоспособности.
  4. Обеспечение качества данных, их валидация и контроль целостности.
  5. Ведение документации по пайплайнам и процессам ETL.
  6. Участие в планировании задач, оценке сроков и распределении ресурсов внутри команды.
  7. Взаимодействие с аналитиками и владельцами данных для уточнения требований и улучшения процессов обработки данных.
  8. Создание расчётных процедур на SQL / PL/pgSQL для анализа данных.
Технологии и инструменты
GitLab, Hadoop, Hive, hue, Jupyter, PySpark, Airflow, Oozie
Период работы/продолжительность
Август 2025 г. - Июнь 2026 г.
Аналитическая платформа по анализу активности ВК
Описание задачи/проекта

создание платформы по анализу активности людей и сообществ в социальной сети ВКонтакте целью определения наиболее перспективных сообществ для рекламодателей.

Позиция на проекте
Data Engineer/DWH Developer
Размер команды
3 data-инженера, 2 аналитика, 3 backend-разработчика, 2 frontend-разработчика, 2 тестировщика, 1 product owner, 1 team lead (отдельно devops)
Ответственность
  1. Создание пайплайнов на Spark + Airflow для загрузки/выгрузки данных в/из Hdfs, Hive, ClickHouse, YT.
  2. Создание расчётных пайплайнов наполнения данными витрин на Spark + Airflow по описанному аналитиком в ТЗ алгоритму.
  3. Перенос кода-прототипа NLP-расчётов аналитиков (пример: определение тональности комментариев к посту) из Pandas на Spark для работы на кластере.
  4. Участие в переезде с Hadoop/Spark в YT (перенос кода пайплайнов со Spark + Airflow на SPYT).
  5. Разработка автоматических тестов и мониторинг для новых и существующих пайплайнов.
  6. Обеспечение качества данных, их валидация и контроль целостности.
  7. Ведение документации по архитектуре данных, пайплайнам и процессам ETL.
  8. Участие в планировании задач, оценке сроков и распределении ресурсов внутри команды.
  9. Обеспечение интеграции новых источников данных и расширение функциональности платформы.
  10. Взаимодействие с аналитиками и разработчиками для уточнения требований и улучшения процессов обработки данных.
  11. Создание расчётных процедур на SQL / PL/pgSQL для анализа данных.
Технологии и инструменты
CI/CD, Clickhouse, Confluence, Git, Grafana, Hadoop, HDFS, Hive, Jira, Kubernetes, Linux, PostgreSQL, Prometheus, PySpark, S3, Airflow, YTsaurus, SCD, FeatureStore
Период работы/продолжительность
Сентябрь 2024 г. - Август 2025 г.
Единый Семантический слой
Описание задачи/проекта

Сбер. Сбор данных из разных систем-источников банка с приведением их в одну унифицированную форму для передачи дальше в аналитические системы в единообразном виде.

Позиция на проекте
Data Engineer/DWH Developer
Размер команды
4 data-инженера, 4 аналитика, 1 product owner, 1 team lead, 1 scrum master (отдельно devops)
Ответственность
  1. Создание пайплайнов на Spark на Scala для загрузки данных из ods-слоя в Hive в dds-слой в Hive.
  2. Создание расчётных пайплайнов обогащения данных в dds-слое на Spark на Scala по описанному аналитиком в ТЗ алгоритму.
  3. Загрузка справочников с мета-данными из PostgreSQL в Hive.
  4. Разработка и оптимизация пайплайнов на Spark (Scala) для автоматической загрузки данных из различных систем-источников в ods-слой.
  5. Создание расчётных пайплайнов для обогащения данных в dds-слое согласно бизнес-правилам и алгоритмам, описанным аналитиками.
  6. Реализация автоматической загрузки и обновление справочников с мета-данными из PostgreSQL в Hive.
  7. Обеспечение обработки и трансформации данных с использованием Data Vault модели для повышения качества аналитической базы.
  8. Внедрение механизмов мониторинга и логирования для пайплайнов, что обеспечило их стабильную работу.
  9. Разработка процедуры автоматического тестирования ETL-процессов и их интеграции в CI/CD.
  10. Ведение документации по архитектуре данных, схемам и бизнес-правилам обработки.
  11. Участие в планировании задач, оценке сроков и распределении работы внутри команды.
  12. Обеспечение безопасности и контроль доступа к данным на всех этапах обработки.
  13. Взаимодействие с аналитиками и бизнес-пользователями для уточнения требований к данным и улучшения процессов.
Технологии и инструменты
CI/CD, Confluence, Git, Hadoop, HDFS, Hive, Jira, JSON, Kubernetes, Linux, PostgreSQL, S3, Scala, Spark, Parquet, Data vault, Spark DataFrames
Период работы/продолжительность
Август 2023 г. - Август 2024 г.
Централизованное аналитическое хранилище
Описание задачи/проекта

проект для Почты России. Создание централизованного аналитического хранилища для сбора данных ото всех почтовых отделений для предоставления сводной информации головному подразделению.

Позиция на проекте
Data Engineer/DWH Developer
Размер команды
5 data-инженеров, 6 аналитиков, 4 тестировщика, 2 product owner, 1 team lead, 1 product manager, 4 devops
Ответственность
  1. Создание пайплайнов на Spark на Scala конвертации данных из raw-слоя (данные в raw-слой приходили из внешней шины на Kafka, записывались в avro-формат) в ods-слой в Hive.
  2. Поддержка и развитие генератора на Scala расчётных sql-скриптов для Hive.
  3. Наполнение мета-данными в PostgreSQL настроечных таблиц для создания расчётных sql-скриптов.
  4. Создание пайплайнов наполнения и обогащения данных из ods-слоя в dds-слой на основе этого генератора.
  5. Выгрузка данных прежней версии хранилища из Greenplum в Hive на Spark на Scala.
  6. Участие в переезде со Spark на Scala на PySpark + Airflow (перенос кода пайплайнов со Scala на Python, создание дагов для Airflow).
  7. Обеспечение мониторинга и логирования всех этапов обработки данных для быстрого выявления и устранения ошибок.
  8. Ведение документации по архитектуре, схемам данных и бизнес-правилам обработки для поддержки команды и дальнейшего развития системы.
Технологии и инструменты
CI/CD, Confluence, Git, GreenPlum, Hadoop, HDFS, Hive, hue, Jira, JSON, Kafka, Kubernetes, Linux, PostgreSQL, PySpark, Scala, Spark, Airflow, Flink, Parquet, Oozie, Deltalake, Data vault, Spark DataFrames
Период работы/продолжительность
Декабрь 2021 г. - Июль 2023 г.
Медиалогия
Описание задачи/проекта

создание платформы для мониторинга и анализа СМИ, соцсетей.и общественного мнения

Позиция на проекте
Data Engineer/Java Developer
Размер команды
2 data-инженера, 4 аналитика, 4 backend-разработчика, 4 frontend-разработчика, 3 тестировщика, 1 team lead, 1 product manager, 2 devops
Ответственность
  1. Участие в качестве backend-разработчика Java в создании микросервисов web-портала для поиска аудиторий СМИ по различным показателям.
  2. Создание микросервиса преобразования пользовательских запросов из web-портала в язык запросов ElasticSearch&.
  3. Создание пайплайнов на Spark на Scala преобразования данных из промежуточного слоя в Hive и наполнения детального слоя в HBase.
  4. Участие в поддержке и развитии расчётных пайплайнов на Spark на Scala в HBase, строящих профиль пользователя соцсетей, по алгоритмам аналитиков.
  5. Наполнение итоговой базы данных полнотекстового поиска ElasticSearch из экосистемы сбора и анализа данных в Hadoop.
Технологии и инструменты
CI/CD, Confluence, Elasticsearch, Git, Hadoop, Hbase, HDFS, Hive, hue, Java, Jira, Kafka, Kubernetes, Linux, PostgreSQL, Scala, Spark, Oozie
Период работы/продолжительность
Февраль 2020 г. - Декабрь 2021 г.

Образование

Курс
Название учебного заведения/курса
SHAD of the Yandex
Не нашли, кого искали?

Оставьте заявку и, наша команда в кратчайшие сроки подберёт необходимого специалиста за вас!

Помните, что заключение договора и оплата услуг происходит после того, как вы выбрали специалиста

Request Poster