Юрий К. , Senior, Data инженер

Male avatar
Юрий К.
Россия, Екатеринбург
2 760 ₽/час 441 600 ₽/мес. без НДС
    Data инженер
  • Senior
Опыт работы:
Более 6 лет
Языки:

Русский — C2

ПисьменныйРазговорный

Английский — B1

ПисьменныйРазговорный

О специалисте

Навыки
Hadoop
HDFS
Yarn
Hive
Oozie
hue
Hbase
Spark
Scala
PySpark
Airflow
Java
JPA
Hibernate
Spring
AMPQ
RabbitMQ
JUnit
Mockito
Maven
Tomcat
Python
Anaconda
Numpy
Pandas
Scikit-learn
NLTK
Scrapy
Jupyter
Celery
Flask
Django
Elasticsearch
Redis
Git
SVN
Upsource
TeamCity
Redmine
idea
PyCharm
ER\Studio
LaTex
Oracle Data Integrator
S3
Kubernetes
Linux
Deltalake
Delphi
VBA
C++
OpenGL
UML
IBM Rational Rose
Unix
Data vault
Star
Snowflake
SCD
Pl/SQL
Technology:
Node.js
JavaScript
Database:
Oracle
PostgreSQL
MongoDB
Test:
YouTrack
Applications:
Docker
Формат работы
Удалённо
Описание о специалисте

Деловые и личные качества

- аналитический склад ума, ответственность, доброжелательность;

- способность самостоятельно принимать решения, умение вести конструктивный диалог;

- желание расти как профессионал в области информационных технологий;

- увлекаюсь футболом и спортивными бальными танцами.


О себе 

- технический английский;

- хорошая математическая подготовка;

- опыт работы с основными структурами данных, алгоритмами, ООП, принципами, общими протоколами и форматами данных;

- знание общих принципов построения DWH и озер данных;

- понимание машинного обучения (классификация, регрессия, кластеризация, ранжирование) и NLP.


Сертификаты:

Hadoop. Система для обработки больших объемов данных 2016-01-01

Web технологии 2016-01-01

Exploratory data analysis 2015-01-01

Getting and Cleaning Data 2015-01-01

HTML5.1x: Web Design Fundamentals (Part 1) 2015-01-01

Introduction to Bootstrap 2015-01-01

MongoDB for Developers (Python) 2015-01-01

MongoDB for Node.js Developers 2015-01-01

R programming 2015-01-01

Scalable Machine Learning 2015-01-01

Web Application Architectures 2015-01-01

An Introduction to Interactive Programming in Python 2014-01-01

Machine learning 2014-01-01

Programming Mobile Applications for Android Handheld Systems 2014-01-01

The Data Scientist’s Toolbox 2014-01-01

Алгоритмы и структуры данных 2014-01-01

Введение в Linux 2014-01-01

Примеры работ

Банк
Описание задачи/проекта

перенос загрузки данных в витрины BI-системы с прежней платформы на Hadoop/Hive с орекстрацией Oozie на новую платформу S3/Iceberg с орекстрацией Airflow

Позиция на проекте
Data Engineer
Размер команды
тех-лид, владелец продукта, 4 дата-инженера на миграции, 2 разработчика генератора потоков
Ответственность
  1. Перенос ETL--пайплайнов с Hadoop/Hive/Oozie на Spark+Airflow для загрузки данных в S3/Iceberg.
  2. Создание на Spark+Airflow пайплайнов обратных реплик из S3/Iceberg в Hadoop/Hive (сохранение работоспособности прежней платформы на время завершения переноса).
  3. Отправка через CI-CD на тестовой/продовый стенды и проверка работоспособности.
  4. Обеспечение качества данных, их валидация и контроль целостности.
  5. Ведение документации по пайплайнам и процессам ETL.
  6. Участие в планировании задач, оценке сроков и распределении ресурсов внутри команды.
  7. Взаимодействие с аналитиками и владельцами данных для уточнения требований и улучшения процессов обработки данных.
  8. Создание расчётных процедур на SQL / PL/pgSQL для анализа данных.
Технологии и инструменты
GitLab, Hadoop, Hive, hue, Jupyter, PySpark, Airflow, Oozie
Период работы/продолжительность
Август 2025 г. - Май 2026 г.
Аналитическая платформа по анализу активности ВК
Описание задачи/проекта

создание платформы по анализу активности людей и сообществ в социальной сети ВКонтакте целью определения наиболее перспективных сообществ для рекламодателей.

Позиция на проекте
Data Engineer/DWH Developer
Размер команды
3 data-инженера, 2 аналитика, 3 backend-разработчика, 2 frontend-разработчика, 2 тестировщика, 1 product owner, 1 team lead (отдельно devops)
Ответственность
  1. Создание пайплайнов на Spark + Airflow для загрузки/выгрузки данных в/из Hdfs, Hive, ClickHouse, YT.
  2. Создание расчётных пайплайнов наполнения данными витрин на Spark + Airflow по описанному аналитиком в ТЗ алгоритму.
  3. Перенос кода-прототипа NLP-расчётов аналитиков (пример: определение тональности комментариев к посту) из Pandas на Spark для работы на кластере.
  4. Участие в переезде с Hadoop/Spark в YT (перенос кода пайплайнов со Spark + Airflow на SPYT).
  5. Разработка автоматических тестов и мониторинг для новых и существующих пайплайнов.
  6. Обеспечение качества данных, их валидация и контроль целостности.
  7. Ведение документации по архитектуре данных, пайплайнам и процессам ETL.
  8. Участие в планировании задач, оценке сроков и распределении ресурсов внутри команды.
  9. Обеспечение интеграции новых источников данных и расширение функциональности платформы.
  10. Взаимодействие с аналитиками и разработчиками для уточнения требований и улучшения процессов обработки данных.
  11. Создание расчётных процедур на SQL / PL/pgSQL для анализа данных.
Технологии и инструменты
CI/CD, Clickhouse, Confluence, Git, Grafana, Hadoop, HDFS, Hive, Jira, Kubernetes, Linux, PostgreSQL, Prometheus, PySpark, S3, Airflow, YTsaurus, SCD, FeatureStore
Период работы/продолжительность
Сентябрь 2024 г. - Август 2025 г.
Единый Семантический слой
Описание задачи/проекта

Сбер. Сбор данных из разных систем-источников банка с приведением их в одну унифицированную форму для передачи дальше в аналитические системы в единообразном виде.

Позиция на проекте
Data Engineer/DWH Developer
Размер команды
4 data-инженера, 4 аналитика, 1 product owner, 1 team lead, 1 scrum master (отдельно devops)
Ответственность
  1. Создание пайплайнов на Spark на Scala для загрузки данных из ods-слоя в Hive в dds-слой в Hive.
  2. Создание расчётных пайплайнов обогащения данных в dds-слое на Spark на Scala по описанному аналитиком в ТЗ алгоритму.
  3. Загрузка справочников с мета-данными из PostgreSQL в Hive.
  4. Разработка и оптимизация пайплайнов на Spark (Scala) для автоматической загрузки данных из различных систем-источников в ods-слой.
  5. Создание расчётных пайплайнов для обогащения данных в dds-слое согласно бизнес-правилам и алгоритмам, описанным аналитиками.
  6. Реализация автоматической загрузки и обновление справочников с мета-данными из PostgreSQL в Hive.
  7. Обеспечение обработки и трансформации данных с использованием Data Vault модели для повышения качества аналитической базы.
  8. Внедрение механизмов мониторинга и логирования для пайплайнов, что обеспечило их стабильную работу.
  9. Разработка процедуры автоматического тестирования ETL-процессов и их интеграции в CI/CD.
  10. Ведение документации по архитектуре данных, схемам и бизнес-правилам обработки.
  11. Участие в планировании задач, оценке сроков и распределении работы внутри команды.
  12. Обеспечение безопасности и контроль доступа к данным на всех этапах обработки.
  13. Взаимодействие с аналитиками и бизнес-пользователями для уточнения требований к данным и улучшения процессов.
Технологии и инструменты
CI/CD, Confluence, Git, Hadoop, HDFS, Hive, Jira, JSON, Kubernetes, Linux, PostgreSQL, S3, Scala, Spark, Parquet, Data vault, Spark DataFrames
Период работы/продолжительность
Август 2023 г. - Август 2024 г.
Централизованное аналитическое хранилище
Описание задачи/проекта

проект для Почты России. Создание централизованного аналитического хранилища для сбора данных ото всех почтовых отделений для предоставления сводной информации головному подразделению.

Позиция на проекте
Data Engineer/DWH Developer
Размер команды
5 data-инженеров, 6 аналитиков, 4 тестировщика, 2 product owner, 1 team lead, 1 product manager, 4 devops
Ответственность
  1. Создание пайплайнов на Spark на Scala конвертации данных из raw-слоя (данные в raw-слой приходили из внешней шины на Kafka, записывались в avro-формат) в ods-слой в Hive.
  2. Поддержка и развитие генератора на Scala расчётных sql-скриптов для Hive.
  3. Наполнение мета-данными в PostgreSQL настроечных таблиц для создания расчётных sql-скриптов.
  4. Создание пайплайнов наполнения и обогащения данных из ods-слоя в dds-слой на основе этого генератора.
  5. Выгрузка данных прежней версии хранилища из Greenplum в Hive на Spark на Scala.
  6. Участие в переезде со Spark на Scala на PySpark + Airflow (перенос кода пайплайнов со Scala на Python, создание дагов для Airflow).
  7. Обеспечение мониторинга и логирования всех этапов обработки данных для быстрого выявления и устранения ошибок.
  8. Ведение документации по архитектуре, схемам данных и бизнес-правилам обработки для поддержки команды и дальнейшего развития системы.
Технологии и инструменты
CI/CD, Confluence, Git, GreenPlum, Hadoop, HDFS, Hive, hue, Jira, JSON, Kafka, Kubernetes, Linux, PostgreSQL, PySpark, Scala, Spark, Airflow, Flink, Parquet, Oozie, Deltalake, Data vault, Spark DataFrames
Период работы/продолжительность
Декабрь 2021 г. - Июль 2023 г.
Медиалогия
Описание задачи/проекта

создание платформы для мониторинга и анализа СМИ, соцсетей.и общественного мнения

Позиция на проекте
Data Engineer/Java Developer
Размер команды
2 data-инженера, 4 аналитика, 4 backend-разработчика, 4 frontend-разработчика, 3 тестировщика, 1 team lead, 1 product manager, 2 devops
Ответственность
  1. Участие в качестве backend-разработчика Java в создании микросервисов web-портала для поиска аудиторий СМИ по различным показателям.
  2. Создание микросервиса преобразования пользовательских запросов из web-портала в язык запросов ElasticSearch&.
  3. Создание пайплайнов на Spark на Scala преобразования данных из промежуточного слоя в Hive и наполнения детального слоя в HBase.
  4. Участие в поддержке и развитии расчётных пайплайнов на Spark на Scala в HBase, строящих профиль пользователя соцсетей, по алгоритмам аналитиков.
  5. Наполнение итоговой базы данных полнотекстового поиска ElasticSearch из экосистемы сбора и анализа данных в Hadoop.
Технологии и инструменты
CI/CD, Confluence, Elasticsearch, Git, Hadoop, Hbase, HDFS, Hive, hue, Java, Jira, Kafka, Kubernetes, Linux, PostgreSQL, Scala, Spark, Oozie
Период работы/продолжительность
Февраль 2020 г. - Декабрь 2021 г.

Образование

Курс
Название учебного заведения/курса
SHAD of the Yandex
Аналогичные специалисты
Male avatar
Нурлан М.
Казахстан, Аксай
2 760 ₽/час без НДС
    Data инженер
  • Senior
опыт работы с реляционными БД Oracle, Postgre, Greenplum;уверенное знание SQL, опыт построения сложных запросов;знание методов оптимизации SQL запросов и практический опыт их использования;опыт работы с Airflow и знание Python;опыт работы с подготовкой данных для BI;опыт базового администрирования сервера Unix;опыт ведения задач в Jira и с отчетностью по метрикам эффективности IT;ответственность, надёжность, гибкость, желание и умение работать в команде. Сертификаты: Agile Data Warehouse Design training course 2018-01-01 (DecisionOne Consulting) Level 5/Advanced 2012-01-01 (Educational Testing Service Global TOEIC) Oracle Database 11g Administration Workshop I 2012-01-01 (RDTEX Information Technologies) Oracle Database 11g Administration Workshop II 2012-01-01 (RDTEX Information Technologies) Oracle: SQL and PL/SQL 9i/10g/11g 2011-01-01 (Alsi Innovation)
    Python
    Azure
    Linux
    SQL
    Git
    MySQL
    MS SQL Server
    Kanban
    Oracle
    Unix
    Snowflake
    Agile
    СУБД
    Jira
    Teradata
    MSSQL
    Databricks
    Cognos BI
    Domo
    PostgreSQL
    Kalido DWH
    ETL
    OLAP
    Jasper Reports
    Oracle Application Express
    Atlassian Confluence
    cognos
    Oracle Hyperion Planning
    CI/CD
    Oracle Data Integrator
    React
    Docker
    Django
    NodeJS
    Airflow
    Spark
    Pandas
Не нашли, кого искали?

Оставьте заявку и, наша команда в кратчайшие сроки подберёт необходимого специалиста за вас!

Помните, что заключение договора и оплата услуг происходит после того, как вы выбрали специалиста

Request Poster