400元快餐不限次数二维码_同城200元附近,51茶楼最新版本,同城快餐
Menu
产品
Tempo大数据分析平台
Tempo商业智能平台
Tempo人工智能平台
Tempo数据工厂平台
Tempo数据治理平台
Tempo主数据管理平台
Tempo指标平台
解决方案
自助式可视化分析
算法模型管理
指标管理解决方案
数字指挥中心
湖仓一体解决方案
智能场景应用构建
主数据应用监管
数据中台
行业应用
发电
电网
制造
油气
煤炭
高校
政企
金融
科研院所
数据资产入表
大模型应用
产教融合
认证中心
DCMM认证
DAMA认证
关于我们
美林数据
合作生态
内容中心
帮助中心
美林新闻
行业资讯
申请试用
方案咨询
产品
Tempo大数据分析平台
面向企业级用户的一体化大数据分析平台
Tempo商业智能平台
面向业务人员的自助式可视化分析平台
Tempo人工智能平台
自动化、智能化的分析模型构建平台
Tempo数据工厂平台
批流一体的大数据开发平台
Tempo数据治理平台
打破数据治理困境,为业务价值保驾护航
Tempo主数据管理平台
解决主数据集成难、应用难的问题
Tempo指标平台
让管理更敏捷、业务更智能
解决方案
自助式可视化分析
数据指导行动,让每一次都有进步
算法模型管理
构建企业级模型管理与应用平台
指标管理解决方案
轻量化打造指标体系,让企业高质量发展
数字指挥中心
从数据中获得见解,让决策有据可依
湖仓一体解决方案
一体化的数据存储、集成、开发解决方案
智能场景应用构建
从数据开发到智能分析的一站式解决方案
主数据应用监管
解决企业主数据应用无法监管难题
数据中台
打造企业数字化转型数据底座
行业应用
发电
数字化赋能新能源电厂提质增效
电网
助力数字电网建设
制造
数字化智造从顶层设计到落地实施
油气
以AI视角优化油气行业生产流程
煤炭
AI赋能智慧煤矿安全、高效生产
高校
教学、实践、科研一体化实验室解决方案
政企
助力智慧政务决策
金融
客群价值深度挖掘,打造精准营销新模式
科研院所
提升科研转化能力,助力产业应用创新
数据资产入表
大模型应用
产教融合
认证中心
DCMM认证
掌握DCMM国家标准,全面提升数据管理技能
DAMA认证
学习国际数据管理业界权威知识体系,培养数据人才
关于我们
美林数据
连续7年大数据企业50强
合作生态
基于多年成功经验,提供技术与方法论支持
内容中心
大数据专业知识沉淀与成果共享
帮助中心
Tempo产品操作手册及常见问题解析
美林新闻
美林数据动态尽在掌握
行业资讯
第一时间洞察最新行业资讯
美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。
产品简介
Tempo商业智能平台
提供了从数据接入、数据准备、数据可视化分析于一体的完整的解决方案
Tempo人工智能平台
为“全民数据科学家”提供自动化、智能化的数据分析模型构建能力。
Tempo数据工厂平台
支持大规模数据的快速集成和高效计算,构建流批一体大数据开发平台。
Tempo指标平台
指标的体系化建设和全生命周期管理。
Tempo数据治理平台
面向企业数据治理、数据中台落地的应用平台。
Tempo主数据管理平台
为用户提供全生命周期管控的主数据治理工具。
相关推荐
2023年度盘点 | 美林数据数智人才培养:数实融合 产学协同
陕西日报:陕西鲲鹏生态创新中心:助力陕西打造信息技术应用创新标杆
喜讯 | 美林数据11项命题成功入选中国国际大学生创新大赛(2024)产业命题赛道!
美林新闻
/
NEWS
首页
美林数据
美林新闻
美林数据技术专家团队 | 金融行业图计算平台构建相关实践
2021-09-02 10:57:30
次
引言
随着信息技术的迅猛发展及企业数字化转型,快速积累了大量的数据,其中关系类数据如社交数据、电商数据等呈指数级增长。图结构数据在各个场景中也得到越来越多的应用,包括社交网络、推荐搜索、知识图谱、医药研发、量子物理等。在探索这些“关系数据”过程中,其相对基于传统结构化数据的方法显现出了巨大优势,图数据存储及图算法等也得到了迅猛的发展。
图结构数据的火热应用快速扩展到各个领域,其中金融领域为进一步增强智能风控管理能力,更好地支撑信贷等业务的发展,也陆续开展基于图数据的模型建设研究。
目前,常规的基于
结构化数据的分析
方法首先对数据进行特征分析,构建特征工程,然后选取指标搭建相应的分类模型。这种方法没有考虑数据之间的关联性,如“同地址”、“同电话”的客户相互影响很大,而把这种“相互影响”考虑进行建模过程,对模型性能提升会有较大影响。
同时,银行现有的图谱数据通常是非常直接的关联。如两个人之间是夫妻关系,这对于基础的连通图、社区发现等依赖于构图的图算法有较大影响。需要我们去丰富构图的方法,建立节点与节点之间的隐性关联。
为了充分利用现有结构化属性数据及图谱数据,在构建图计算平台时,既加入了传统的出入度、簇系数、介数等中心性指标,也做图的表征学习,考虑节点和边关系的属性信息,以进行更好的信息融合。
一、整体架构
图计算平台整体架构最底层为执行框架层,具体采用Spark框架来实现,支撑算法层中各操作,并将获取到的特征(包含节点属性和边关系属性)输入到Euler/TensorFlowOnSpark中构建具体的分类模型。
算子层是图计算常用的操作,包括邻居采样、随机游走、消息传播、最短路径等。
算子之上是图算法层。由于现有图数据为很大的异构图,需要通过同构图抽取、louvain分割算法等进行子图构建,且由于业务规则,抽取的图为有向图。这部分需要对现有的算法进行改造,以支撑该场景。同时会对抽取的子图提取节点度、簇系数、介数等统计指标。嵌入表示方面,有基于拓扑结构的Node2Vec/Struct2vec及基于采样的LINE/GraphSage等算法。
图平台应用主要是风控,常见的应用场景有欺诈检测、信用贷款、潜客发现等。
二、算法改造
由于业务的特殊性,图数据间关系均为有向连接,且带有权重,就需要我们基于Spark实现对应的算法,包括有向最短路径、二度/三度同构图、有向连通图、有向Louvain算法、有向LPA算法和有向Node2Vec算法。
以Louvain分割算法为例,简述算法的改造过程。
Louvain算法是基于??槎鹊耐挤指钏惴?,能够发现层次性的社区结构,其优化目标为最大化整个子图的??槎龋涓脑炷训阍谟谀?槎鹊母脑旒安⑿谢迪?。
模块度是评估一个图划分好坏的度量方法,它的物理含义是子图内节点的连边数与随机情况下的边数之差,其定义如下:
其中,A
ij
表示节点i和节点j之间的权重,当网络不带权重时,可看做为1;K
i
=∑
j
A
ij
表示所有与节点i相连的边的权重之和(度数);C
i
表示节点i所属的子图;m=0.5*
∑
ij
A
ij
表示所有边的权重之和(边的数目)。∑in表示子图c内的边的权重之和,∑tot表示与子图c内的节点相连的边的权重之和?;谀?槎鹊纳缜⑾炙惴ǎ际且宰畲蠡?槎任猀目标。
对于有向??槎龋咛宀慰肌禗irected Louvain : maximizing modularity in directed network》。基本思想为:如果两个顶点u和v,u具有小的进度、大的出度,v有小的出度、大的进度,则存在从u到v的连接概率应大于从v连向u的概率??啥ㄒ宄鲇邢蛲嫉模↙eich and Newman)??槎任?/span>
其中
A
ij
表示存在i到j的边,d
i
in
,
d
j
out
分别表示入度和出度。进而??槎鹊谋浠靠尚次?/span>
其中,∑
tot
in
(resp.∑
tot
out
)表示连接子图C的入度(出度)。
由于原始算法是逐个选择节点,重新计算它的子图,不断进行迭代。这种串行化的计算方式,对分布式计算框架非常不友好。因为在选择一个节点进行计算时,其它的节点是不能进行变化的。
这种方式不能进行并行化计算,也不能充分利用分布式框架的高并发、集群计算优势。
为了使算法能够运行在集群环境上,需要对算法进行并行化改造。如在每轮迭代中同步更新多个节点的信息,即根据t-1轮中邻居节点的信息来更新t轮中节点的信息。但这样会造成“消息滞后”,造成“子图互换”问题。因此,需要进行后处理?;谒惴ń峁?,求解连通区域,将同一个连通区域的点都归为一个子图。
三、建模流程
基于图计算平台的
数据建模
流程大致可分为以下四个步骤:
1、图构建:结合图计算平台能力,实现同构子图的获取。首先结合分布式切片策略将数据加载到Spark中,然后借助Spark实现属性数据的清洗。如缺失值填充、孤立点处理等。然后结合消息传播实现一度、二度、三度同构图的获取,并采用Louvain分割算法、LPA算法、连通分析算法得到最终的同构子图。
2、图特征:结合图计算平台能力,获取各节点特征表示。特征包含基于节点度、中心性等的统计特征,还包括基于Node2Vec、LINE、GraphSage的嵌入表示特征,并将两者进行拼接,同时对于同一节点在不同子图中的特征,也进行拼接,进而获得节点的最终特征表示。
3、图模型:结合具体的业务场景,构建图模型。具体可借助Euler
建模平台
,构建GCN等图分类模型,也可借助TensorFlowOnSpark框架,实现基于TensorFlow和Spark的分布式深度学习模型构建。
4、新图关联:对于新增客户,所构成的异构子图。根据其属性相关性(相似或相同),和已有的异构图数据进行关联,然后进行后续处理,处理流程同1、2、3步。
四、场景示例
以“潜客发现”场景为例,通过对用户的历史数据进行分析,提取不同维度的信息,对客户意愿进行预测,以达到发掘潜在客户的目的。其关键在于通过模型算法挖掘出数据中所隐含的用户行为规律。传统的方法不能对用户各行为及用户间各关系进行建模,通常具有较低的召回率。
故结合上述建模流程,探索图计算在“潜客发现”场景的效果。具体数据实体(节点)有手机号、地址、邮箱等,关系有亲属关系、交易关系等,属性有姓名、性别、年龄等,按照上述流程对有154万节点、917万条边及34个属性的图数据进行处理,构建相关特征,各算子运行效率如下:
最终,对于具有1亿节点、15亿条表的图数据,提取特征后构建分类模型。其效果如下图所示:
可以看出,基于
图数据的建模
方式可以获得更高的精度和召回率,对于金融机构在发掘潜在价值客户的精准度有较明显的提升,从而更好的支撑“潜客发现”的业务开展。
借助分布式计算和图计算,可以对大规模的图数据进行处理,在结构化数据的基础上融合“关系数据”,建立出性能更好的模型。在金融系统的欺诈检测、信用贷款、潜客发现等应用场景都能得到广泛的应用,实现金融企业智能风控管理能力的有效提升。
近年来,随着人工智能、大数据等新技术的深入应用,为金融机构的业务开展带来了革命性的变革。
美林数据
依托领先的数据价值挖掘技术与能力,为银行、保险、证券、基金等金融机构提供专业的数据治理、数据分析与挖掘等数字化技术服务,助力提升金融机构的风控管理、市场营销等业务能力,利用金融科技助推我国金融市场的繁荣发展。
上一篇:美林数据技术专家团队 | 基于容器打造云原生产品体系
下一篇:美林数据技术专家团队 | 大数据资源调度系统多样化适配过程中的业务和设计
产品
Tempo大数据分析平台
Tempo商业智能平台
Tempo人工智能平台
Tempo数据工厂平台
Tempo数据治理平台
Tempo主数据管理平台
Tempo指标平台
产教融合
解决方案
自助式可视化分析
算法模型管理
指标管理解决方案
数字指挥中心
湖仓一体解决方案
智能场景应用构建
主数据应用监管
数据中台
行业应用
发电
电网
制造
油气
煤炭
高校
政企
金融
科研院所
关于我们
美林数据
合作生态
内容中心
帮助中心
美林新闻
行业资讯
联系我们
全国服务电话:
400-608-2558 029-8869-6198
企业邮箱:tempo@meritdata.com.cn
地址:中国西安 ? 雁塔区西三环天谷八路软件新城国家电子商务示范基地六层
扫码关注我们
扫码立即咨询
友情链接:
美林数据官网
Tempo Talents大数据应用能力成长平台
Copyright ? 2020 MeritData.All Rights Reserved
陕ICP备05005361号-1.
陕公网安备 61019002000171号
网站地图
版权所有@2022
美林数据技术股份有限公司
在线咨询
服务热线
400-608-2558
咨询热线
15502965860
电话联系
微信扫描二维码,立即在线咨询
微信沟通
申请试用