数据治理:数据清理与归档

2021-04-27 16:32:43 阅读 12414

01为什么需要数据清洗和归档?

随着长时间的累积,一些关键的业务系统中积累了大量的历史交易数据,这些历史数据使得这些系统变得越来越庞大,并且在维护上也越来越复杂。

数据量的快速增长已经成为了IT管理部门所面对的最难于解决的问题之一,因为数据量的增长已经严重降低了应用程序的性能,降低了应用程序的稳定性,并且消耗了大量的投资,同时对备份与恢复也增加了巨大的负担。

对于IT管理部门来说,不能永无止境的投入大量资金来升级我们的存储、加大存储容量、提高服务器性能,以此来满足不断增长的数据量。提高存储容量和提高服务器的处理能力只能暂时的解决我们所面临的问题。

通过数据清理和数据归档的实施可以有效的提高数据库性能,确保核心业务不会因为长时间数据积累而出现性能问题,从而应用可以更加迅捷地为客户提供优质服务,从而提高企业信誉、提升企业的核心竞争力。

02数据清洗和归档方案

当前许多存储备份厂商都都提出数据清理和归档解决方案,提供了一整套的流程和技术来管理信息数据从产生时刻到该数据失去价值的整个过程。帮助客户制定数据在不同的生命周期阶段制定不同的访问和过期策略;帮助企业设置和执行数据生命周期过程中的数据管理策略,将历史交易数据从生产数据库上迁移到在线的归档数据库上(online archive)。

在线归档与离线归档(offline archive)的最大区别在于在线归档数据库保持对迁移后的归档数据的实时访问,而离线归档数据可以用于数据的长期保存,并提供有限的查询能力。

通过这种历史交易的迁移,使得企业能够在已有的IT架构基础上支持更好的应用系统性能,在无需服务器升级和存储扩容的基础上满足企业业务增长的需要。

同时在生产数据库上保存更少的数据能够有效的降低容灾、复制、备份和恢复的成本消耗,降低企业对于IT系统的总体拥有成本,尤其是后期的维护成本。

通过制定合理的数据归档方案,制定一套自动化管理的流程流程可以帮助客户建立历史数据的保留策略,提供历史数据的归档抽取、历史数据的保存、历史数据的检索等一体化功能,将历史数据从生产系统中重新迁移到归档数据库上。

帮助客户实现历史数据的分级存放,透明访问,提高生产系统的性能,降低IT的总体投资(TCO):

1、定义数据生命周期的各个环节,包括数据的产生、访问、保留策略以及数据在不同的时间点上的服务级别需求(SLA);

2、监控、预测数据的增长趋势,搭建和执行数据的过期策略,从而将历史交易数据定期从生产系统中迁移到在线的归档数据库上,创建一个用户可透明访问的历史数据管理平台;

3、改造现有应用系统,使原有的业务系统可以透明访问历史数据。

虽然最简单的方式是仿照生产系统搭建一套历史数据查询系统,但是最佳的解决方案还是在业务系统中进行改造升级,使用户感受不到数据归档带来的数据访问的变化。就像现在银行的当天交易查询和历史交易查询的融合,二十年前这两种查询要分开进行,十分不便。

03数据分类归档的方式

任何数据都有一定的生命周期,从数据产生(输入或者被采集)到使用到过期。所不同的是数据的保存周期不同,数据的保存方式不同。

一般来说,根据数据生命周期和保管方式不同,可以分为几大类:

永久在线数据:这类数据不需要归档,从系统上线开始一直在线。这类数据的特点是数据量不大(一般从几十K到几百M不等),数据较为静态,变更量不大(比如参数数据、用户档案数据);

周期性在线数据:这类数据往往在某个周期性事件中被采集往往具有很强的时间周期特性(比如月度周期),这些数据在采集后被集中处理,处理形成汇总或者帐务数据。数据处理后,在一定周期内还需要被查询,一定时间周期后查询量逐渐减少;

工作流性质的数据:具有一定的实效性,根据流程的状态判断是否需要继续一级在线,归档不仅仅取决于时间,还取决于某些条件;

一级汇总数据:根据明细汇总的数据,可以在明细数据归档或者删除后提供统计查询。一般在线1年或者数年;

二级/多级汇总数据:在一级汇总数据基础上汇总的数据,数据量较小,可以长期保留;

临时数据:临时使用,使用后应该马上清理的数据。不过在往往清理力度不足,导致长期在线。

每个数据在其生命周期内,其存储的方式也有多种形态, 根据其访问的便利性,我们分为:

生产库在线存放,当前数据:保存在生产库的当前数据表中;

生产库在线存放,历史数据:保存在生产库的历史数据表中(与生产数据同库,在软件设计阶段做好设计,让客户感受不到这种分表存储);

历史库在线存放:从生产库中转移到历史库,并在生产库中删除该数据;

离线归档存放:存放在离线介质中(比如对象存储、磁带库,光盘库等)。

有些系统中生产库中没有区分历史数据和当前数据,是统一存放的,这样存放的好处是应用程序处理起来比较简单,不需要专门设计历史数据查询模块。

关注微信公众号,获取最新信息小编微信(zqykj0811),加入微信群与悟空团队的数据分析师一起交流

返回新闻活动列表