『工作』风控——无监督聚类和有监督聚类的思考

    xiaoxiao2021-11-30  53

            最近被调到了新的项目里的风控部,主要负责项目的交易行为的风控,也就是对客户的交易行为进行识别并进行反欺诈,使用的方法主要是数据挖掘里的聚类,未来可能还会使用到时间序列或其它方法,而我个人则希望有一天能够使用深度学习的方法。

            由于项目尚未上线,所以目前主要是利用部分无标记的数据进行反欺诈模型的探索——模型预构建。而在探索的过程中,则发现了一些问题,主要是两大问题:一、使用无监督聚类还是有监督聚类,二、能否使用有监督聚类主要取决于什么?所以下面也主要围绕这两个问题进行思考和讨论。

            一、使用无监督聚类还是有监督聚类?

            因为这个项目对于我们公司来说是个新的项目,也是一个新的模式,所以造成的一个很严重的问题就是:我们没有任何相关的数据积累!就连我们的模型预构建也是使用的是别人的数据且该数据也没有标记,更别说历史数据和对历史数据进行标记(本文的标记都指的是标记是否是欺诈客户)了,换言之,我们在前期是根本不可能有任何有标记的数据的。

            所以我们只能够选无监督聚类了吗?但是无监督聚类也有它自身的问题:

            1、无监督聚类只能够聚类成指定数量的类,但却不能够说明每一个类到底代表着什么,而我们是希望能够找出有欺诈嫌疑的客户,如果我们不知道每一个类代表着什么,自然也就意味着我们无法确定哪个类的客户才是有欺诈嫌疑的。

             2、在 1 的问题中,我们可以假设有欺诈嫌疑的人是人数最少的那个类或者几个类,并命名为欺诈类客户或欺诈类。该假设是由假设我们的项目里正常的客户要远多于不正常的客户(此处的不正常的客户并不完全等同有有欺诈嫌疑的客户),并定义这样的市场是一个正常市场,同时定义其为市场初始假设,所推导出来的,并定义其为欺诈假设。其可靠性同时依赖于市场初始假设和欺诈假设。但是欺诈假设存在特殊情况,即可能存在区别于正常客户的不正常客户,且由于该类人在人类总体中占少数的原因,导致其在我们的聚类中即使被聚类了其数量也会极少。

            在欺诈假设的条件下,我们可以继续下一步的工作了。但是此时又会遇到另一个问题,该问题同样是由缺乏标记所衍生出来的:在欺诈假设的条件下,我们可以确定人数最少的那个类(或者几个类,也不考虑特殊情况)是有欺诈嫌疑的客户,但是确定里面真的是欺诈的客户有几个呢?我们在这里定义一个名为欺诈识别准确率,并简记为识别率的公式:识别率 = 识别正确总数  / (识别正确总数 + 识别错误总数) * 100%

            由公式可见在欺诈嫌疑类的客户总数一定的情况下,识别率取决于识别正确总数,而确定识别正确总数则取决于标记,而现在我们并没有有标记的数据。

            解决这一问题的方法,我想到的但并未实践的是:由人工来对欺诈类客户进行人工鉴别和标记,同时积累标记的数据。但是这一方法真的完美吗?或者说在资金成本和时间成本上可接受吗?

            对于这个问题的探讨,引出了我们的第二个问题。

            二、能否使用有监督聚类主要取决于什么?

            上面做法其实质是无监督聚类和有监督聚类的结合,并最终使用有监督聚类。但问题是有监督聚类,在资金成本和时间成本上可接受吗?因为我无法接触到我们项目的项目预算资金方面的信息,故在此仅讨论时间成本。

            毫无疑问,人工标记是需要相当长的时间的,这个过程中所耗费的时间即是我们的时间成本,并记为标记时间成本。因为成本具有可分摊性,即可将标记时间成本平均分摊到我们整个项目的生命周期里,因此如果总标记时间成本是较小的话,此处定义总标记时间成本等于在整个项目生命周期中每一次的标记时间成本相加,那么很大可能,即不考虑其可能花费非常多的时间的情况,对于我们来说是可接受的。

            在此我们考虑一个问题:即欺诈客户的欺诈模式是否会变化很快,以及我们的风控策略(主要体现在模型的迭代上)随之快速变化,并定义其为对坑性。欺诈客户的欺诈模式变化越快,我们的风控策略变化越快,则对坑性也越强,反之则弱。

            在对坑性强弱这个基础上,我们可以这样来思考总标记时间成本的问题。在对坑性弱的情况下,我们模型迭代速度相对而言不会太快,又由第一个问题中得到我们的模型取决于标记,而标记时间成本的更新又取决于标记次数,故而总标记时间成本也不会太高。而相反的是,在对坑性强的情况下,总标记时间成本则会相当高。

            故而,是否适合使用有监督聚类取决于对坑性的强弱。

            而关于对坑性强弱的问题则既取决于我们风控的技术能力和反应速度,也取决于欺诈客户,而欺诈客户升级其欺诈模式则既取决于我们风控的技术能力和反应速度,也取决于我们的交易平台的盈利空间,即欺诈客户在我们平台上进行欺诈的期望收益。由于后者更多地关于经济学方面,故在此不说。

            准备等老板有空后,再找他讨论一下这个问题,希望能够有新的认识和找到能够切实解决我们目前的问题的方法。到时可能会再更新

    转载请注明原文地址: https://ju.6miu.com/read-679120.html

    最新回复(0)