||
李升伟 编译
如果不考虑工作压力的话,数据工程(Data engineering)是一个迷人的职业。如果您是一名数据工程师(data engineers),您将是需要数据的行业中每项业务操作的掌舵人,只要用户生成数据,业务就永远需要数据工程师的您。换句话说,数据工程师工作有保障,充满了满满的职业安全感。但是,能力越大、责任就越大。成就一名成功的数据工程师之路充满了荆棘与坎坷,你需要导航,并且好的开始就是成功的一半。在本篇短文中,我们将引导您浏览成为数据工程师的整个过程,帮助您避开常见的陷阱,并在第一时间做到正确。这不是火箭科学,但也不是在公园里散步。继续读下去!
一、数据工程师的角色和职责是什么?
在我们进入数据工程的细节之前,首先必须了解数据工程师是做什么的?简单地说,数据工程师的日常工作是在各种环境中构建和维护数据管道(data pipelines),以便在需要时方便地访问它们。这包括在扩展处理系统中设计、开发、构建和测试数据架构。下面是一些数据工程角色和职责的概述:
1.数据采集。着眼于并完成数据收集可能是这个职业的第一担当,无论数据工程师的“堆栈”如何。数据工程师从多种数据来源收集各种数据集,以帮助他们的公司更好地实时洞察特定的细分市场。数据收集还可以促进:
§ 洞察消费者行为;
§ 洞察正在执行和执行不得力的营销策略;
§ 产品与服务定制化;
§ 在竞争对手中脱颖而出。
工程师收集的数据类型取决于行业、当地政策和法规,以及包罗万象的业务目的和目标。
2.原始数据分析。原始数据包括任何尚未准备好使用的数据集,包括从多个来源收集并聚集在某个中心化位置的数据集,它可以在云软件中,也可以在本地数据库中,这取决于公司文化。企业经常雇用数据工程师来分析这些数据,以区分哪些信息可以得到使用,哪些信息不能得到使用。原始数据可以作为BI(商务智能)系统的第一信息源,特别是在正确分析的情况下。BI系统中的原始数据有助于丰富用户角色,以实现更个性化的营销和服务交付。
3.数据模型创建与模式识别。典型的数据收集过程从创建一个数据模型开始,该模型将有助于更容易的模式识别。数据工程师接受过如何通过以下步骤创建这些模型的培训:
§ 数据源选择;
§ 数据集选择;
§ 属性、列和指标选择;
§ 建立一个关系工具来粘合各种数据集,以便于更容易地分析;
§ 构建层次结构以简化数据验证;
§ 分配数据模型访问的角色和权限;
§ 数据模型的部署。
数据工程师为数据模型分配名称和描述,以便其他用户可以轻松地导航存储服务器。
4.进行研究和日常任务自动化。在现代商业实践中,自动化等创新技术使数据收集更容易、更有效。数据工程师的责任是确定哪些工作流可以自动化,以补充无缝的数据收集例程。数据工程师可以利用人工智能和编程来自动捕获来自消费者行为、纸质文档甚至雇员例程的数据。然后,该软件将这些数据转换成易于阅读的文件,然后对这些文件进行编译,以便以后进行深入分析。
5.解决业务问题。坏数据是现代商家的最大问题。IBM公司估计,由于坏数据,美国经济每年损失高达3.1万亿美元。更重要的是,88%的企业表示,数据几乎是所有问题的根源,有时会吃掉年收入的12%。这些统计数据指出了数据工程师每天处理的内容。他们必须与其他业务主管密切合作,以确保他们定期监控收集的数据,从而保证它不会对业务产生不利影响。此外,数据工程师进行头脑风暴并提出有助于解决任何其他商业问题的想法。
6.保证数据治理的合规性。每个企业都对他们从消费者或任何其他来源收集到的数据尽职尽责。此外,每个司法管辖区都有法律法规,彰显了一家公司应该在多大程度上对其数据负责。数据工程师保证他们的雇主遵守这些规定。这可以通过确保最大程度的数据透明度、质量、一致性和标准化来实现。
二、如何成为一名数据工程师:路线图
你有兴趣成为一名数据工程师吗? 一份最近的数据科学清单报告将数据工程列为需求增长最快的职业,即使与其最近的对应物――数据科学相比也是如此。报告显示,在2020年,数据工程的招聘面试次数增长了40%,而数据科学的招聘面试次数仅增长了10%。考虑到这一点,数据工程是您想要探索的职业。这里是一份数据工程的职业路径,将引导你进入这个行业:
数据工程师必须具备一系列技术技能,以补充他们的日常角色和职责。尽管不同的工作岗位可能需要特定的技术技能,但有些能力适用于所有数据工程师,无论是有经验的还是入门级的专业人员。完成数据工程师成长路线图所需的一些技术技能包括:
(1)通用编码和编程基础
数据工程师的一般基础包括对SQL的典型掌握。这项技能将帮助您管理关系数据库管理系统(RDBMS),以及发出优化的查询。就编码而言,如果您熟悉数据工程师堆栈,它也会有所帮助。例如,您必须了解Python编码语言和一些利用它的库,包括用于数据分析的Matplotlib和用于数据科学的Pandas。其他Python库包括NumPy、SQLAlchemy、Pyglet和SciPy。除此之外,您还需要基于Linux操作系统(OS)的技术诀窍技能。当涉及到数据工程时,该系统在Windows上提供了更大的硬件支持和典型的计算速度。
(2)通用数据工程(DE)基础
要在这个职业中取得成功,您应该具备的另一组技能包括通用数据工程基础知识。例如,如果您了解数据仓库是如何工作的、包括构建和维护基础设施,它将会有所帮助。这将帮助您汇总从多个来源收集的原始数据。此外,当涉及到数据建模时,您需要了解大数据工具是如何工作的。在建模数据结构时,你可能会用到的一些工具包括Hadoop和MapReduce、Apache Spark、Apache Hive、Kafka、Apache Pig和ETL系统。最重要的是,不要忘记磨练您在数据库可视化和管理以及测试方面的技能。
随着对工作文化的日益关注,软技能对大多数公司来说都是不可或缺的。一个好的员工不仅应该具备技术技能,还应该具备软技能。成为市场上受欢迎的数据工程师所需的一些软技能包括:
§ 团队精神;
§ 诚实和负责任;
§ 热情;
§ 熟练的沟通技巧;
§ 批判性思维能力。
在满足上述要求之后,在进入职业市场之前,您需要从事数据工程项目以获得相关经验。值得注意的是,大多数雇主会雇佣有一定经验的数据工程师,而不是那些刚刚走出教室的新手。也就是说,你需要找一份初级的IT助理工作。这可以是在你的大学里面,也可以是你所在城市的任何一家小公司。 目标是与成熟的数据工程师一起工作,这样您就可以在工作中积极主动地学习。当你开始着手第一个项目时,确保你磨练了自己的编程、编码和其他技术技能,从而吸引潜在的雇主。
如果你具备了相关经验之上的所有必要条件,那么找第一份工作就会更容易。你可以留意各种招聘网站上的招聘信息,然后申请。 您还可以注册工作通讯,以便在需要数据工程师的职位出现时收到通知。或者,你可以向大型科技公司推销自己,特别是如果你有一些拿得出手的东西,可以吸引他们的注意。
6. 促进你在数据工程方面的职业发展
任何员工都想在公司里步步高升,担任重要的领导角色。就像在任何职业中一样,如果你要负责复杂的项目,甚至提供咨询服务,你需要提高你的数据工程技能。以下是一些技能和资质,可以帮助您进一步提高数据工程技能:熟练使用亚马逊网络服务(AWS);机器语言(ML)和分布式系统技能;数据可视化工具的技术诀窍;大数据知识和背景。
由于大数据和数据科学应用的兴起,数据工程可以说是技术领域增长最快的职位之一。随着需求的增加,今天,数据工程是一个相当有利可图的职业。根据美国求职招聘公司Glassdoor的数据,美国数据工程师的平均年薪约为120,046美元,在大型科技公司工作的经验丰富的数据工程师每年可以赚到141,149美元甚至更多。
资料来源:Big Data Analytics News
原文链接:
https://bigdataanalyticsnews.com/data-engineer-roadmap/
Archiver|手机版|科学网 ( 京ICP备07017567号-12 )
GMT+8, 2024-11-1 13:26
Powered by ScienceNet.cn
Copyright © 2007- 中国科学报社