熟悉大数据技术栈,擅长数据仓库、ETL和实时数据处理
查看完整的简历模板内容和格式
Python、Scala、SQL,熟练使用 pandas、numpy 等数据处理库Apache Spark、Hadoop、Flink 等大数据处理框架Kafka、Pulsar 等消息队列进行实时数据处理Hive、ClickHouse、Snowflake 等数据仓库技术Airflow、Prefect 等数据流编排工具Docker、Kubernetes、云平台 (AWS、阿里云) 部署技术栈: Spark/Hive/ClickHouse/Airflow/Python/AWS
职责以及难点:
Hive + ClickHouse 构建 Lambda架构 数据仓库。设计 分层数据模型,包括 ODS、DWD、DWS、ADS 四层架构。通过 维度建模 和 事实表 设计,查询性能提升 500%,存储空间节约 40%。Apache Spark 处理 TB级 日增数据。实现 增量同步、数据清洗、数据转换 等核心功能。通过 分区策略 和 并行优化,数据处理时间从 6小时 缩短到 1小时。Kafka + Flink 实现 流式计算。处理 千万级 QPS 的实时数据流,支持 窗口聚合、状态计算、复杂事件处理。实时指标计算延迟控制在 100ms 以内,准确率达到 99.9%。Python + FastAPI 构建统一数据 API。支持 多维查询、数据导出、权限控制 等功能。通过 缓存策略 和 查询优化,API 响应时间稳定在 500ms 以内。AWS S3 + Delta Lake 构建企业数据湖。支持 ACID事务、时间旅行、schema演进 等高级特性。通过 数据分层 和 生命周期管理,存储成本降低 50%。Apache Atlas 进行 元数据管理,Ranger 进行 权限控制。数据合规性达到 100%,安全事件降低 95%。MLflow + Kubeflow 支持 模型训练 和 模型部署。实现 特征工程、模型版本管理、A/B测试 等功能。模型上线时间从 2周 缩短到 2天。Superset + Grafana 构建 BI报表 系统。支持 自助分析、定制报表、实时监控 等功能。业务人员自主分析能力提升 400%,报表开发效率提升 300%。技术栈: Kafka/Flink/Redis/Elasticsearch/Python/TensorFlow
职责以及难点:
Kafka + Flink 构建 事件驱动 的推荐系统。实现 用户行为 实时收集、特征计算、模型推理 的完整链路。推荐响应时间控制在 50ms 以内,点击率提升 35%。Flink 实现 实时特征计算。支持 滑动窗口、会话窗口、累积特征 等多种计算模式。通过 特征缓存 和 增量更新,特征计算延迟降低 70%。Elasticsearch 构建 多维用户标签。集成 行为数据、内容数据、社交数据 等多源信息。通过 标签权重 和 时间衰减,用户画像准确率达到 85%。统计学方法 进行 显著性检验,确保实验结果可信。A/B测试周期从 2周 缩短到 3天。技术栈: Airflow/dbt/Great Expectations/Superset/PostgreSQL
职责以及难点:
Airflow 管理 复杂数据工作流。设计 DAG 依赖关系,支持 错误重试、并行执行、动态调度 等功能。数据任务成功率从 90% 提升到 99%,故障恢复时间缩短 80%。dbt 进行 声明式数据转换。支持 增量模型、快照表、宏函数 等高级特性。通过 模型测试 和 文档生成,数据模型质量提升 200%。Great Expectations 构建 数据质量 检查框架。支持 数据分布、唯一性、完整性 等多维度检查。数据质量问题发现时间从 24小时 缩短到 1小时。Superset 提供 可视化分析 能力。支持 SQL Lab、仪表板、权限管理 等功能。业务分析师工作效率提升 300%,IT支持工作量减少 70%。