大家好,我是王路情,一名创业者。
今天,我要给你分享数据的重要性,希望你喜欢。
我的观点:让我们从数据里面,发现问题、分析问题、解决问题,形成正回路。
具体操作,可以概括为五个步骤:
第一步:数据问题
第二步:数据准备
第三步:数据理解
第四步:数据学习
第五步:数据应用
现在,我逐一介绍。
1 数据问题
所有问题,都可以回归到数据问题。
比方说,国家的GDP增长率、失业率、通胀率、人口生死比、人均GDP等;企业的利润率、毛利率、市场占有率、人效率等;个人的资产负债表、身心健康指标、专业能力水平等。
因此,我们在明确定义一个问题的时候,需要问自己能否数据化界定,并且基于一个参照系的基础下,做对比和评判。若是属于冷启动过程,我们可以找对标,同时,结合实际情况,以确定自己的基准线;若是自己有了数据基础了,就不断地对比,促进向上前进。
拿我目前服务的金融科技行业信贷业务风控来说,关键指标:通过率、坏账率和件均额度,对于风控的所有问题,都可以回归到这3个指标来看。
1)是不是通过率低了?低多少,为什么低?什么原因导致减低?
2)是不是坏账率高了?高多少,为什么高?导致高的因素有哪些?
3)件均额度是不是低了?低多少,为什么低?如何解决这个问题?
总之,基于价值驱动原则,我们采用数据化的思维方式设计和提出一个明晰的问题,然后在问题的指引下,开展我们后面工作和行动。由此观之,数据的重要性,是不二法门。
2 数据准备
一旦找到了对的方向,我们接下来,就需要在方向的引领下,推进后续一系列行动。
数据问题清晰了,接下来,我们就要做好数据准备了。
数据准备这块,我们要去思考和解决这些问题。
1)我需要什么数据?
2)这些数据在哪里?
3)如何正确获取这些数据?
4)获取这些数据需要什么权限和技术?
5)获取到这些数据后如何安放?
同样,还是以我所服务的风控分析和建模为例。
若是发现某一个产品的通过率低了,这个时候,我需要去获取与通过率相关的数据集。直接了当,立刻介入。那就是获取决策引擎规则命中的记录数据,通过统计分析,发现那些规则命中率有上升趋势,然后进一步分析这条规则的逻辑,以及对应变量取值和加工逻辑,采用对比和溯源的方法,去获取这个关键问题对应的数据。至于获取数据技术方式,可以直接编写SQL程序获取;或者可以通过Python+数据库的策略获取。
总之,就是以发现的数据问题为导向,按着直接和层层透析的方式,做数据的获取和准备工作。这个时候,我们在此感觉到数据的重要性,因为,这些数据准备,有利于我们去认识和分析数据问题。
3 数据理解
当我们完成数据准备工作后,我们需要去对这个数据做理解和认知。
我们可以借助哲学里面的宏观和微观,来指导我们理解数据。
宏观层面,我们看数据的大小,来自那些表,有多少样本,有多少特征等重要信息。
微观层面,我们要根据解决的问题,充分地理解,每个特征表示业务含义。
我继续以我服务的信贷业务风控为例,若是我要了解最近的贷后表现情况,宏观层面,我要获取还款数据,微观层面,我要对获取的还款数据的关键字段进行理解,例如,到期日期,订单编号,是否结清,授信额度,放款金额,应收金额,实还日期。我们会看这些特征是否获取了,获取成功后,这些字段取值的完整情况等,同时,基于这些字段,做深入理解,可用于指导怎样的分析和挖掘,也就是进入到第四步,数据学习。
4 数据学习
所谓数据学习,就是对于完成了数据准备和理解后的数据,利用统计学、模式识别、机器学习和人工智能等领域的方法,从数据中发现规律和提炼结论的过程。
我以第三步谈到需要了解贷后表现情况为例,当我们做好数据理解后,这个时候,我们利用实还日期和应还日期(到期日期)计算差值,这个差值有很重要的业务含义:
情形1:实还日期不为空
1)若是差值小于0,表示用户属于提前还款
2)若是差值等于0,表示用户属于按时还款
3)若是差值大于0,表示用户属于逾期还款
情形2:到期了并且实还日期为空
1)若是实还日期,一直为空,表示用户至今未还,就可能会进入坏账阶段
我们所要做的就是如何用这个是实还日期为空的情况,尽量减小这个比重,也就是达成降低坏账的效果。
我们基于上面这个逻辑,就可以设计和衍生出贷后风控的关键指标,例如:
提前1天的未还率、
首逾(到期日的未还率),
逾期3天的未还率,
逾期7天的未还率,
至今未还率(坏账),
件均额度,
以及资金收益率、回款率。
通过这些关键指标,我们可以了解目前风控的表现、以及客服和催收的表现、以及收益率情况。这些关键指标,就是我们这个信贷业务的北极星指标,时刻指导着我们的行动。
基于这些关键指标的统计分析后,我们采用整体和部分的哲学,通过分箱和综合的技术,进一步深挖,发现更差和更好的客群,然后采用差异化的策略和行动计划。这就到了第五步,数据应用。基于数据分析的结果,以目标为驱动下,做的一系列行动操作。
5 数据应用
数据应用,简而言之,就是以目标为驱动下,基于数据结果的策略体系。
这个策略体系,有很多种形态,有的可能是监控报表,这是我们看数据的眼睛;有的可能是决策引擎里面一系列规则集,实现对客户的评判和授信;有的是风控里面的模型体系,设计和构建一系列能够做风险识别和量化的模型库等等。
总之,数据应用的方式,可以多样化,但是,最终要归结到,服务目标和达成目标。
要让目标成真,这又回归到第一步,数据问题的合理解决,从而形成了一个闭环,并且是一个正反馈的环路,促进整个业务生态持续向前进展。
数据是否重要,写到这里,已经不言而喻了。
因为,上面介绍的5个步骤,这一套方法论,就是一套数据驱动下,以达成目标的方法论和实践论。
总而言之,数据非常重要。你怎么看?
我的微信,欢迎添加。
我是谁?
我是王路情,澳门科技大学计算机技术及其应用博士,专注数据科学与人工智能研究与应用,拥有多年数字化营销和智能化风控的经验。我热爱分享,基于数据驱动的方法论提供数字化和智能化的咨询与服务。我也是创业者,我们团队可以提供各类软件定制开发和人工智能应用项目或者产品服务。期待与您连接,共创美好未来。