随着企业不断积累海量用户数据,如何更高效地整合和利用这些数据以驱动个性化服务创新,已成为众多行业头部企业面临的关键课题。为了实现用户画像、行为分析等深度价值挖掘,越来越多企业选择通过构建统一的数据湖平台,为数据驱动的业务能力提供坚实基础。
在全球化部署日益普及的背景下,数据湖不仅需要具备灵活的架构能力,还必须满足多地区数据合规、安全等级、技术栈统一等综合需求。因此,不少企业选择与具备行业经验的技术服务商合作,在公有云上重构数据湖,替代原有架构,从而实现全球一致性、高可用性与更优性能的统一平台支撑。
传统数据湖方案常面临一系列挑战:例如,计算资源类型单一,难以进行成本弹性优化;数据跨境获取受限,难以满足全球级安全标准;缺乏易用的账单分析与成本优化工具;运维复杂度高,缺少集成的自动化工具链;架构设计相对滞后,难以支持微服务化与容器化开发需求;全球团队难以共享统的技术环境,影响协作效率;同时,大量基于开源组件自建的服务也造成了架构繁杂、运维成本高等问题。
为了应对这些问题,企业正积极转向云原生的托管服务,逐步替代传统的自建方案,从而降低运维负担、提升系统稳定性和业务敏捷性。同时,越来越多企业将DevOps与容器化作为未来技术演进的重要方向,期望在新一代数据湖建设中实现开发、部署、运维一体化,全面提升数据平台的可用性与支撑能力,助力企业构建可持续的数字化核心竞争力。
华讯网络按照公有云云原生的架构设计原则,并考虑到和品牌方原本的技术栈的顺利衔接,以分布式计算引擎和低成本的块存储为核心打造此次云上数据湖方案,并按照客户所需的功能、性能、安全、监控、运维需求进行设计和实施。
架构中,接入的数据主要来自于各大电商平台,经由Internet到达一系列运行于弹性伸缩的计算组中的Apache开源数据处理组件进行前期处理后,存放到块存储桶中。此外,新接入了一部分来自于global数据湖的用户数据,经由品牌方的内部网络到达ETL服务进行处理后,也存放于块存储桶中。该存储桶中的数据可由托管的ETL服务进行一系列的数据处理。保存后的各项原始数据由批处理服务负责处理,处理过程由批处理服务中的的Spark和fink针对批量数据和流数据分别进行,处理结果将分类存储到存储桶、DB和数仓中。品牌方要求的用于调度Spark数据处理任务的Airflow系统也被部署到虚拟机中。同时,各部门的数据分析师以及个性化应用的开发人员可按需(在其权限内)使用批处理服务获得所需结果。
通过上述过程,用于个性化服务的基础数据已准备就绪,接下来的数据分析和可视化等工作将出部署于K8S集群中的tableau和其他定制开发的BI应用完成,并通过API向数据湖外的其他系统开放。该部分将结合K8S以容器化管理的方式实现。且构建成DevOps体系。
为保障和提高数据湖的运维效力,方案中采用云日志、云监听、SNS协助监控,并部署由华讯网络基于Splunk开发的MSP服务,实现高质量的运维,采用KMS等方式管理密铜以提供系统的安全保障,采用IAM、Kerberos等提供安全认证,此外,为迎合品牌方已经成熟的的laC技术积累,本方案可支持Terraform。
同等处理效率的情况下,采用公有云数据湖方案相比原数据湖,节省成本超过20%;数据湖提供了丰富的数据处理和数据存储组件,并提供容器环境,由此可满足品牌方的各类个性化服务应用开发需求;利用DevOps设计和K8S,可快速部署和调整整个数据湖环境,以及基于数据湖的业务系统。
符合中国网络信息安全法律法规对于用户数据的安全要求;符合品牌方的企业安全合规要求;既符合公有云科技的安全设计准则,同时融合品牌方过往的技术经验。
完整保留原数据湖中的数据;数据湖分析组件及功能与原数据湖环境保持兼容;能够完整接收并实时处理来自各电商渠道的PB级用户数据:实现与Airflow系统的对接:接入品牌方的global用户数据。
能够支持双十一等业务高峰产生的大量用户数据;数据存储处理能够满足商业时效要求;各数据湖组件能够弹性适应业务波动的要求,降低数据存储和处理的成本;简化运维复杂度并提升运维效率和质量。