数据工程
中级工程师

数据工程师简历模板|大数据处理|3年经验

熟悉大数据技术栈,擅长数据仓库、ETL和实时数据处理

数据工程
大数据
Spark
Kafka
数据仓库
ETL
Python

简历预览

查看完整的简历模板内容和格式

王芳-三年-数据工程师

教育经历

  • 山西⼤学 硕士 2012-2015
  • 山西大学 本科 2008-2012

个人技能

  • 熟悉 PythonScalaSQL,熟练使用 pandasnumpy 等数据处理库
  • 掌握 Apache SparkHadoopFlink 等大数据处理框架
  • 熟练使用 KafkaPulsar 等消息队列进行实时数据处理
  • 熟悉 HiveClickHouseSnowflake 等数据仓库技术
  • 了解 AirflowPrefect 等数据流编排工具
  • 掌握 DockerKubernetes、云平台 (AWS阿里云) 部署

工作经历

水风科技 2019-2023

山月科技 2016-2019

项目经历

XXX 企业级数据仓库建设

技术栈: Spark/Hive/ClickHouse/Airflow/Python/AWS

职责以及难点:

  1. 主导数据仓库架构设计,基于 Hive + ClickHouse 构建 Lambda架构 数据仓库。设计 分层数据模型,包括 ODSDWDDWSADS 四层架构。通过 维度建模事实表 设计,查询性能提升 500%,存储空间节约 40%
  2. 开发 ETL数据管道,使用 Apache Spark 处理 TB级 日增数据。实现 增量同步数据清洗数据转换 等核心功能。通过 分区策略并行优化,数据处理时间从 6小时 缩短到 1小时
  3. 构建 实时数据处理平台,使用 Kafka + Flink 实现 流式计算。处理 千万级 QPS 的实时数据流,支持 窗口聚合状态计算复杂事件处理。实时指标计算延迟控制在 100ms 以内,准确率达到 99.9%
  4. 实现 数据质量管控,开发数据质量监控系统。设计 数据血缘数据画像异常检测 等功能。通过 自动化检测智能告警,数据质量问题发现率提升 300%,处理时间缩短 80%
  5. 开发 数据服务平台,使用 Python + FastAPI 构建统一数据 API。支持 多维查询数据导出权限控制 等功能。通过 缓存策略查询优化API 响应时间稳定在 500ms 以内。
  6. 设计 数据湖架构,基于 AWS S3 + Delta Lake 构建企业数据湖。支持 ACID事务时间旅行schema演进 等高级特性。通过 数据分层生命周期管理,存储成本降低 50%
  7. 实现 数据治理体系,建立 数据标准元数据管理数据安全 等制度。使用 Apache Atlas 进行 元数据管理Ranger 进行 权限控制。数据合规性达到 100%,安全事件降低 95%
  8. 构建 机器学习平台,使用 MLflow + Kubeflow 支持 模型训练模型部署。实现 特征工程模型版本管理A/B测试 等功能。模型上线时间从 2周 缩短到 2天
  9. 开发 数据可视化平台,使用 Superset + Grafana 构建 BI报表 系统。支持 自助分析定制报表实时监控 等功能。业务人员自主分析能力提升 400%,报表开发效率提升 300%
  10. 实现 数据成本优化,通过 冷热数据分层压缩算法生命周期管理 等手段。结合云平台的 Spot实例预留实例,数据处理成本降低 60%

XXX 实时推荐系统

技术栈: Kafka/Flink/Redis/Elasticsearch/Python/TensorFlow

职责以及难点:

  1. 设计实时推荐架构,基于 Kafka + Flink 构建 事件驱动 的推荐系统。实现 用户行为 实时收集、特征计算模型推理 的完整链路。推荐响应时间控制在 50ms 以内,点击率提升 35%
  2. 开发 特征工程平台,使用 Flink 实现 实时特征计算。支持 滑动窗口会话窗口累积特征 等多种计算模式。通过 特征缓存增量更新,特征计算延迟降低 70%
  3. 实现 用户画像系统,基于 Elasticsearch 构建 多维用户标签。集成 行为数据内容数据社交数据 等多源信息。通过 标签权重时间衰减,用户画像准确率达到 85%
  4. 构建 A/B测试平台,支持 流量分层实验配置效果评估 等功能。使用 统计学方法 进行 显著性检验,确保实验结果可信。A/B测试周期从 2周 缩短到 3天
  5. 开发 冷启动解决方案,针对新用户和新商品的推荐问题。使用 内容相似性协同过滤知识图谱 等多种策略。新用户转化率提升 60%,新商品曝光率提升 80%

XXX 数据运营平台

技术栈: Airflow/dbt/Great Expectations/Superset/PostgreSQL

职责以及难点:

  1. 构建数据编排系统,使用 Airflow 管理 复杂数据工作流。设计 DAG 依赖关系,支持 错误重试并行执行动态调度 等功能。数据任务成功率从 90% 提升到 99%,故障恢复时间缩短 80%
  2. 实现 数据建模自动化,使用 dbt 进行 声明式数据转换。支持 增量模型快照表宏函数 等高级特性。通过 模型测试文档生成,数据模型质量提升 200%
  3. 开发 数据质量监控,使用 Great Expectations 构建 数据质量 检查框架。支持 数据分布唯一性完整性 等多维度检查。数据质量问题发现时间从 24小时 缩短到 1小时
  4. 构建 自助分析平台,使用 Superset 提供 可视化分析 能力。支持 SQL Lab仪表板权限管理 等功能。业务分析师工作效率提升 300%,IT支持工作量减少 70%
  5. 实现 数据资产管理,建立 数据目录血缘关系影响分析 等功能。通过 自动化扫描手动标注,数据资产可发现性提升 400%

模板信息

适用岗位
数据工程
经验水平
中级工程师
核心技能
数据工程
大数据
Spark
+4

使用指南

1
个性化内容
替换模板中的个人信息、工作经历和项目经验
2
技能匹配
根据目标岗位调整技能描述和项目亮点
3
数据量化
用具体数字展示工作成果和项目影响
高质量模板
专业设计,助力求职成功