0717-7821348
新闻中心

欢乐彩是真的吗

您现在的位置: 首页 > 新闻中心 > 欢乐彩是真的吗
机器学习、数据科学与金融职业—通用数据模型Common Data Model
2019-05-11 22:42:53

未机器学习、数据科学与金融职业—通用数据模型Common Data Model来数据会成为中心资源。

——马云

做数据剖析首要是熟悉事务及职业常识,其次是剖析思路,再次是办法和东西,切勿为了办法而办法,为东西而东西。

——数据剖析格言

水能载舟,亦能覆舟

大数据年代,人类取得数据才能远远超越咱们的幻想,人类对国际的知道正在提升到新的高度。咱们知道数据能够协助咱们更好地了解国际、猜测未来。近年来人工智能的鼓起,大数据起着至关重要的效果:计算学习需求大样本数据;机器学习需求许多数据;而深度学习需求海量数据。

现在,人工智能相关技能现已进入到各个笔直职业范畴。传统职业巨子也都希望数据剖析、机器学习等相关技能能够为他们进步其事务量,减缩本钱、进步赢利。

众所周知,金融职业的数据之大,含金量之高都是名列前茅的。可是正是因为金融业的大数据和其杂乱的事务逻辑导致其数据杂乱度十分高,咱们需求很有用的办法为数据建模以进步数据驱动型运用的开发功率和削减数据误读以及成见。

本系列文章中的第一篇《运用与趋势》中,笔者早年扼要介绍了CDM的概念及其效果,并以为其是为金融职业供给数据驱动型运用处理方案的数据服务公司和Fintech技能公司不可或缺的一个组件。

本文首要在以下两个方面深入探讨CDM:

• CDM的含义和效果

企业事务层面

数据科学层面

• CDM的技能架构

企业事务层面

一、CDM---企业事务层面

1)为笔直职业服务的数据驱动型运用是以事务数据为中心的

首要,咱们认可各职业都需求数据驱动型运用。而一般情况下数据驱动型运用由四部分组成:

传统职业对数据运用的需求是以其事务方针为导向的,所以咱们能够必定的是:职业中心数据是包含在其事务系统中的事务数据。

2)了解事务数据是数据剖析服务的要害

咱们常常听到许多人通知咱们“人会扯谎,数据不会扯谎“。从根本上讲是能够被认同的。但请幻想一下,一个数据驱动型运用四个环节中的任何一个环节都需求人和算法来参加。人是否存在成见,是否对数据存在误读,学习算法是否或许对数据存在“轻视和成见“?所以,实践中存在许多的“数据扯谎”的现象。

消除误读和成见的根底便是对数据有正确的了解。所以咱们需求在根本环节中参加数据了解的概念。

3)事务数据中含有杂乱的事务逻辑

每个企业都有自己的事务逻辑,乃至在一个企业内部不同事务部门的事务逻辑和事务数据也存在差异。这个现象在金融职业更为明显。对供给数据剖析服务的公司来言,假设不了解事务逻辑,也就不能很好的解读数据,很难幻想其能供给较为优质的数据剖析服务和数据驱动型运用。

4)数据驱动型运用开发功率和可扩展性至关重要

数据服务企业或金融科技企业在供给数据剖析服务和人工智能运用的一起,必定会考虑其渠道运用的可扩展性。也便是说,他们希望所开发的模型运用能够重复运用,且能够扩展到其他事务部门乃至其他职业。

但适得其反,很显然到达这一点有许多困难。咱们无妨假定某数据运用是做信用卡用户剖析以进步用户留存率,假想象把此模型用到借款用户的用户剖析上,是否可行呢?答案显然是否定的。事务数据中记载的信用卡用户的行为数据和借款用户的数据很或许彻底不相同,数据维度、类型、格局和含义等都有十分大的差异。在这种情况下,咱们很难希望模型移植能够得到相同的效果。很或许一切的进程都需求重新做,乃至根本的模型都不相同了。

假设任何一个运用都需求重新做一遍,不能堆集曾经的探究效果和数据常识,可想而知开发本钱较高且功率也比较低。所以咱们需求一种办法来补偿这点,能够尽最大或许进步模型重复运用的或许性,堆集职业常识、事务逻辑常识和数据常识。当然,想做到这一点还需求对所选用的模型或数据科学办法进行记载和办理,以便迭代优化和重用。

5)数据多维度交融的需求

无论是从数据科学办法上讲,仍是从事务方针上来看,对数据维度的需求都会越来越大。借用前面信用卡用户剖析的比如来说,或许不只需求买卖数据,还需求用户的交际数据、移动轨道等等,所以多维度跨范畴的大数据交融的需求会越来越多。

为了进步数据交融的功率和添加可重用性,咱们需求准确界说和安排数据。进一步说,需求界说各范畴的感念术语和层次结构。

总结一下,在职业数据运用是以事务方针为导向的前提下,咱们需求一种笼统层次较高的数据模型协助咱们准确了解事务数据,进步模型可仿制性,加速数据交融的脚步。

数据科学层面

二、CDM---数据科学层面

1)供给从事务逻辑到数据科学办法的桥梁

前面咱们首要是从事务视角上看待这个问题。可是职业数据驱动型运用仍是需求选用人工智能技能,比如数据剖析发掘、机器学习和深度学习等。但人工智能专家往往不是事务专家,这就造成了从事务逻辑到数据科学办法的一个开裂,而CDM尽管不能从根本上处理这个问题,但却应该能够在进步重复运用方面起到一个弥补的效果,记载什么数据科学办法运用到什么数据处理一个什么样的问题到一个什么程度。它在事务常识数据和数据科学办法中起到了桥梁和堆集的效果。

举个比如,幻想信用卡用户剖析和借款用户剖析的比如:假设咱们用决议计划树模型为信用卡用户建立了一个分类运用,即使咱们现已有数据的准确描绘和界说,怎么把该模型用到借款用户分类上呢?很或许仍是不可,因为数据的含义不相同了,决议计划树模型或许不再适用了,说不定NB或SVM是更好的挑选。

CDM能够为咱们做的是把探究效果和运用流程沉积到渠道层,也便是说堆集数据常识,事务常识、数据科学常识和这三者之间的联络和流程。

假设相似这种联络堆集多了,笔者斗胆想象:会呈现自动化的模型挑选,探究剖析的机器学习运用。

2)高层笼统

回想咱们的方针是进步数据科学办法的一个数据驱动型运用的可重用性和可仿制性,以进步开发功率然后降低本钱。以此为动身点来考虑,假设咱们想运用曾经的模型运用效果,首要需求把其数据表明和界说笼统到高层,也便是说其数据界说是能够泛化的。

用面向目标编程言语的概念来解说这点便是:模型的数据界说相当于一个目标,而咱们想重用它,需求将其笼统到类。

3)机器可读

CDM所界说的任何数据模型和联络都有必要是机器可读的。只需如此,才能够最大程度地消除数据误读、辅佐数据验证而完成流程自动化。

4)数据验证机器学习、数据科学与金融职业—通用数据模型Common Data Model

数据驱动型运用通常会练习一个机器学习算法或选用某个数据科学办法来建立一个模型,该模型练习成功后会继续运用已完成事务运用。可是假设因为事务和事务数据有改变,或许人为因素,将会导致模型的输入数据改变。这时模型的效果是难以预料了,依靠这样的效果而做决议计划或许事物处理显然是灾难性的。

所以,咱们需求一种机制来协助查看数据特征是否契合预期,并且为了进步功率和削减人为因素,这个进程有必要是自动化的。

CDM自身就会对数据进行界说,咱们只需添加其对数据科学相关的界说,例如变量类型、规模和计算特性等等。这样CDM就能够较为便当的添加数据验证和盘点的功用。

简而言之,CDM需求完成数据的准确界说和描绘,可泛化和机器可读,支撑数据科学相关数据特征的验证和盘点。

CDM技能参阅架构

三、CDM技能参阅架构

1)传统数据模型

传统数据模型一般有以下几种:

事情模型

归档模型

联络模型

层次模型

网状模型

图模型

这几种模型各有优缺点,它们能够表明简直一切数据联络和结构,各职业的事务系统数据全都是归于这些模型,所以CDM可选用这几种模型的一两种或其组合。

笔者以为CDM应该选用事情模型和图模型,因为其意图是准确界说和描绘数据,并利于机器学习模型作业。机器学习模型的输入一般是事情模型,而事务数据用图模型来表明更为直观和便当。

2)功用结构

早年面的剖析中,咱们能够得到CDM的根本功用结构:

数据接入模块担任从外部数据源读取数据集和数据字典,应支撑多种数据获取方法,包含RDBMS、HTTP、FTP等。

元数据办理模块首要用来办理描绘数据集和外部数据源相关信息的元数据。

数据表明推理模块是中心模块,首要处理对事务数据的准确界说,描写数据之间的联络,向上层笼统以支撑泛化并支撑联络推理。

串行化处理CDM所保护数据的存储方法和记载格局的问题。

数据获取模块向渠道层供给CDM数据的查询拜访。

别的,除这些根本中心功用之外,CDM还应支撑数据验证和轻度数据清洗功用以确保数据驱动型运用流程以良构和可控的方法运转。请注意,CDM的功用应只能渗透到数据清洗功用,不能过多的影响机器学习模型和流程。它首要是在数据层对可复用机器学习模型供给协助。

3)技能参阅模型

1. 逻辑视图

从逻辑架构上讲,CDM的主体部分能够分为概念笼统层、数据表明层和存储层。

概念笼统层是把事务逻辑数据和术语映射到高层笼统概念和术语,以供移植和泛化。

数据表明层首要用来界说怎么表明事务逻辑数据,及界说相关术语和词汇,实体和实体联络。为了能够便当交融多源数据和协助了解事务逻辑,还应支撑常识和联络推理。

存储层望文生义是处理数据的存储问题,概念层和表明层所得到的一切数据描绘、术语界说以及实体联络等都需求串行化到存储层,作为渠道的常识堆集以供拜访查询。

2. 语义规范

上图给出了CDM中各逻辑功用模块语义表述的规范,这些语义表述规范现已在常识图谱中被广泛选用。CDM自身的效果之一便是堆集职业、数据和数据科学常识,所以从这方面讲也可看成是常识图谱的一个运用。

这些规范都是W3C语义网络(Semantic Web)所触及的技能栈,它能够供给数据的表明、推理、可信性、查询和用户交互功用。下面扼要介绍一下:

语义描绘和常识表明

RDF ( Resource Description Framework) 是一个用于描绘 Web 上的资源的结构,供给了针对数据的模型以及语法,可由XML/Turtle等编写,且被规划为机器可读的。它的根本结构是描绘和表明一个三元组,即主语(subject),谓语(predict),宾语(object)。

RDFS (RDF Schema) 为RDF供给了数据模型的扩展和概念层词汇表,支撑RDF、Turtle、TRIG和JSON-LD表明。

OWL ( Web Ontology Language ) 是web本体界说言语,是一种语义界说,可表达丰厚和杂乱的关于事物、事物组以及事物联络的常识。其升级版为OWL 2。本体(Ontology)能够被了解成特定范畴规范概念集及其逻辑联络的描绘。本体为特定范畴中的信息供给了一个根本的分类结构,一起也为特定范畴中的信息之间的相关性供给了必定程度的逻辑描绘,使得特定范畴中的信息资源能够在本体描绘的结构上安排成一个有机的全体。因为许多范畴常识之间都有必定的相关性,某个元数据或本体中的一些概念或许概念等价于其他一些元数据或本体中的别的一些概念,故这些特定范畴的本体与小米金融元数据都存在着必定的语义相关性。这种相关性能够经过其相关描绘来描写。所以,相关语义数据集为咱们供给了跨学科跨范畴的语义数据的整合体。

依据RDF/OWL的通用词汇表和模型

DCAT(Data Catalog Vocabulary)是构建在RDF上的一个扩展词汇表,首要用来描绘数据目录和数据集。

DC ( Dublin Core Element Set ) 都柏林中心元素集,是对web中资源界说的通用中心规范,它界说了一些通用词汇以供扩展。

SKOS ( Simple Knowledge Organization System ),由W3C提出的,在语义网结构下,用机器可了解的言语来表明常识安排系统的一个模型。

FOAF ( Friend Of A Friend ), 是一种 XML/RDF 词汇表,它以计算机可读的方法描绘个人信息。

JSON-LD, 已JSON格局表明链接数据(Linked Data)的一种规范, 便当供给RestFul服务然后结构微服务系统架构。

Microdata,在HTML5中嵌入语义信息。

其他辅佐类东西

R2RML (RDB to RDF Mapping Language) 是能够定制化的把联络模型映射到RDF的一种表明言语。

SPARQL,一种通用的依据RDF的查询言语和数据获取协议。

3. 开源软件和东西

咱们能够运用开源软件和东西协助咱们完成CDM。例如Apache Jena,供给了RDF相关API,支撑OWL,并做了一些扩展。别的Jena还包含了三元组存储库TDB和常识推理API。

斯坦福大学的DeepDive,能够从形式数据中提取常识和联络,它选用相似datalog的数据描绘言语。

至于本体建模东西,咱们能够选用protg。

存储层东西咱们能够选用相似Neo4j这样的原生图数据库或相似TDB多元组存储库,也可选用联络数据库。

其他细分范畴东西也有许多,比如OpenLink Virtuoso,Ultrawrap,Ontop等。下图给出了CDM的一个参阅架构:

四、总结:

总的来说,CDM有三个中心组件:1. 数据接入;2. 数据语义表明和存储;3. 数据验证。其间,数据接入组件对接外部数据源,数据语义表明和存储十分相似于一个常识图谱,但或许更偏重于建立事务语义和数据科学语义的桥梁,而数据验证则为数据驱动型运用供给数据可靠性的增强。

以上部分内容来自我国大数据工业调查,作者:马明,派可数据转载此文,并已声明上述创作者信息,如有侵权请原作者联络咱们处理。

重视派可数据原创文章系列:

咱们应该怎么正确了解商业智能 BI 的价值 ?

作为 CIO,构建一个商业智能 BI 剖析渠道应该要点重视什么?

轿车出产制作职业 BI 数据可视化剖析事例

杂谈:破解商业智能 BI 的谎话从“你能不能“说起

派可数据一站式企业级 BI 可视化剖析渠道-出产制作可视化 DEMO

派可数据-物流职业商业智能 BI 剖析事例

企业数据化运营机器学习、数据科学与金融职业—通用数据模型Common Data Model之道|2018年用友全球企业服务大会派可数据

一文看懂四大报表之资产负债表

一文看懂四大报表之赢利表

一文看懂四大报表之现金流量表

一文看懂四大报表之一切者(股东)权益变动表

(重视派可数据,重视更多的 BI 职业剖析事例。假设读者对商业智能 BI 比较感兴趣,或您地点的职业和企业有这方面的需求,请随时联络咱们,咱们将依据企业实践需求协助企业构建完好的事务目标剖析系统。)

派可数据一站式企业级 BI 可视化剖析渠道

派可数据(www.packingdata.com) 为企业打造专业的一站式企业级商业智能 BI 渠道,经过规范的数据仓库建模和前端自助可视化剖析渠道为企业构建高度稳健、可扩展的 BI 剖析渠道。快速事务模型驱动和丰厚的各类事务剖析目标库支撑,协助企业在最短的时间里构建有用的可视化剖析模型。