人妻无码专区高清,国产亚洲日韩在线aaaa

您的位置：首頁 >新聞 > 公司 >

有哪些黑科技正在悄悄改變金融？

來源：鳳凰科技 2017-09-20 11:07:28

在社會網(wǎng)絡(luò)中，一個著名的理論是：

最多通過六個人，你就能夠認(rèn)識世界上的任何一個陌生人。如果把每個人看作實體，找出人與人之間的聯(lián)系，其中涉及的就是建設(shè)知識圖譜的技術(shù)。

通過知識圖譜的圖形化展示，可以很直觀地呈現(xiàn)人們錯綜復(fù)雜的社交關(guān)系。據(jù)說，這種技術(shù)曾經(jīng)用于情報部門反恐，并取得了良好的效果。今天，知識圖譜已經(jīng)從007的神秘技能演變?yōu)榻鹑诤诳萍肌＿@項金融黑科技真正應(yīng)用的起點在2012年，谷歌公司將其引入搜索引擎，用于改善搜索體驗。簡單地說，就是通過對網(wǎng)頁信息的爬取和分析，找出不同種類信息的內(nèi)在聯(lián)系，從“關(guān)系”的角度突破信息碎片化壁壘，提供包含關(guān)聯(lián)關(guān)系的搜索結(jié)果。

值得注意的是，金融領(lǐng)域由于對數(shù)據(jù)強烈的依賴性，被認(rèn)為是人工智能最適合落地的領(lǐng)域之一。海量的數(shù)據(jù)為人們更好地掌握與認(rèn)知事物規(guī)律，提供了越來越豐富的來源。

但是，由于非結(jié)構(gòu)化數(shù)據(jù)的急劇增長，對數(shù)據(jù)的分析與理解的要求已經(jīng)遠(yuǎn)遠(yuǎn)超過人類的生理極限，這對我們的分析手段提出了新的要求與挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)儲存方式將數(shù)據(jù)分門別類的存放，已經(jīng)很難適應(yīng)現(xiàn)實瞬息萬變的市場行情，無法滿足金融分析的實時性和全局性的要求。

金融知識圖譜是金融行業(yè)語義理解和知識搜索的關(guān)鍵性基礎(chǔ)技術(shù)，可以為輿情監(jiān)控、知識發(fā)現(xiàn)和推理決策等提供技術(shù)支撐。因此，越來越多的金融機(jī)構(gòu)及企業(yè)在探索構(gòu)建金融領(lǐng)域的知識圖譜研究，將海量非結(jié)構(gòu)化信息自動化利用起來，為金融領(lǐng)域應(yīng)用決策提供更精準(zhǔn)可靠的依據(jù)。下面，我們做個詳細(xì)介紹。

什么是知識圖譜?

知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)，是基于圖的數(shù)據(jù)結(jié)構(gòu)，以圖的方式存儲知識并向用戶返回經(jīng)過加工和推理的知識。它由“節(jié)點”和“邊”組成，節(jié)點表示現(xiàn)實世界中的“實體”，邊表示實體之間的“關(guān)系”。

一般來說，知識圖譜分為通用知識圖譜和領(lǐng)域知識圖譜。其中，通用知識圖譜主要由各大搜索引擎公司研究，以提高搜索準(zhǔn)確率，爭取直接給出目標(biāo)答案;而領(lǐng)域知識圖譜可根據(jù)領(lǐng)域特定的情況，提供各種針對性的應(yīng)用。

具體到金融領(lǐng)域，因為涉及到各行各業(yè)，包含了經(jīng)濟(jì)、產(chǎn)業(yè)、公司等眾多方面的知識，所以金融知識圖譜相對于其他領(lǐng)域比較特別。具體來說，金融知識圖譜常見的實體包括：公司、產(chǎn)品、證券和人員等。實體間的關(guān)系包括：股權(quán)關(guān)系、任職關(guān)系、擔(dān)保關(guān)系、供應(yīng)商關(guān)系、競爭對手關(guān)系、生產(chǎn)關(guān)系、采購關(guān)系和上下游關(guān)系等(參見下圖)。其中，有些實體和關(guān)系，可以自動抽取生成，如股權(quán)關(guān)系和任職關(guān)系等，均可在工商局注冊登記平臺得到公開信息。而產(chǎn)品間的上下游關(guān)系則需要有系統(tǒng)性的數(shù)據(jù)源，這就給信息獲取和識別帶來了巨大的挑戰(zhàn)。

知識圖譜有什么特點?

知識圖譜可以最有效、最直觀地表達(dá)出實體間的關(guān)系。簡單地說，就是把大量不同種類的信息連接在一起而得到一個關(guān)系網(wǎng)絡(luò)，為人們提供了從“關(guān)系”的角度分析問題的能力。

相對于傳統(tǒng)的描述方式，知識圖譜具有一些自身的特點：

(1)多維度，需要從大量的信息源中抽取多維度的特征信息，為后續(xù)算法拓展深度關(guān)聯(lián)關(guān)系提供必要的素材;

(2)深加工，在信息素材的基礎(chǔ)上，通過智能推理實現(xiàn)從數(shù)據(jù)到智慧的深加工;

(3)可視化，深加工的結(jié)果以可視化的方式展現(xiàn)給用戶，并與用戶交互，直觀易懂。

假設(shè)我們用知識圖譜來描述一個事實：“李四是張三的朋友”。這里的實體是張三和李四，關(guān)系是“朋友”。當(dāng)然，張三和李四也可能會跟其他人存在著某種類型的關(guān)系(如王五)。如果把電話號碼也作為節(jié)點加入到知識圖譜(電話號碼也是實體)，人和電話之間也可以產(chǎn)生一種關(guān)系，即某個電話號碼是屬于某人。

由此可見，知識圖譜是基于圖的數(shù)據(jù)結(jié)構(gòu)，它的存儲方式主要有兩種形式：圖數(shù)據(jù)庫和RDF存儲格式。在此，可以使用專業(yè)的工具進(jìn)行相關(guān)的工作。比如，neo4j在整個圖存儲領(lǐng)域里占據(jù)著重要的地位，在RDF領(lǐng)域里Jena是目前最為流行的存儲框架。

當(dāng)然，如果需要描述的實體維度較少，而且查詢時僅僅需要知道實體間簡單的關(guān)聯(lián)關(guān)系，那么使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫即可滿足要求。但是對于復(fù)雜的關(guān)系網(wǎng)絡(luò)，知識圖譜的優(yōu)點非常顯著。首先，在關(guān)聯(lián)查詢的效率上，比傳統(tǒng)的存儲方式有顯著的提高，查詢效率甚至?xí)叱鰩浊П渡踔翈装偃f倍。其次，基于圖的存儲在設(shè)計上比關(guān)系型數(shù)據(jù)庫靈活，比如新的數(shù)據(jù)源只需在已有的圖譜上插入即可。

用知識圖譜可以做什么?

目前，知識圖譜的應(yīng)用在國內(nèi)還處于初始階段，但已經(jīng)在金融、醫(yī)療和電商等行業(yè)得到了廣泛的探索。特別在金融行業(yè)中，知識圖譜是一個重要的反欺詐手段。例如，基于大數(shù)據(jù)的分析把不同來源的各類數(shù)據(jù)整合在一起，有效地識別出團(tuán)體欺詐、身份造假、代辦包裝等欺詐行為。此外，還可應(yīng)用于行業(yè)風(fēng)險預(yù)測、對客戶的精準(zhǔn)營銷以及可視化展示等一些典型的領(lǐng)域。相信隨著研究的深入，還會有越來越多的應(yīng)用場景被發(fā)掘出來。下面，我們對已有應(yīng)用場景做一個詳細(xì)介紹。

(1)風(fēng)控反欺詐

反欺詐是風(fēng)控中非常重要的一道環(huán)節(jié)，也是知識圖譜適合應(yīng)用的場景。反欺詐的核心是人，這就要求把與借款人相關(guān)的數(shù)據(jù)源打通，然后抽取該借款人的特征標(biāo)簽，從而將相關(guān)的信息整合成結(jié)構(gòu)化的知識圖譜。其中，不僅可以處理記錄借款人的基本信息，還可以把借款人日常生活中的消費記錄、行為記錄、關(guān)系信息、網(wǎng)上瀏覽記錄等整合到知識圖譜里。在此基礎(chǔ)上，對該借款人的借貸風(fēng)險進(jìn)行分析和評估。

反欺詐的應(yīng)用不僅體現(xiàn)在貸前階段，還可以應(yīng)用在貸中階段，通過構(gòu)建已知的主要欺詐要素(如手機(jī)、設(shè)備、賬號和地域等)的關(guān)系圖譜，全方位了解借款人風(fēng)險數(shù)據(jù)的統(tǒng)計分析，對潛在的欺詐行為作出及時的反應(yīng)。當(dāng)然，這要求能夠獲得借款人全方位的各種類型的信息，并且利用機(jī)器學(xué)習(xí)和自然語言處理技術(shù)從數(shù)據(jù)中提取出符合圖譜規(guī)格的數(shù)據(jù)。

相比虛假身份的識別，組團(tuán)欺詐的發(fā)現(xiàn)難度更大。一般來說，團(tuán)體欺詐往往隱藏在非常復(fù)雜的關(guān)系網(wǎng)絡(luò)里，很難識別。只有把其中隱含的關(guān)系網(wǎng)絡(luò)梳理清楚，才有可能去分析出其中潛在的風(fēng)險。知識圖譜，因為天生用來描述關(guān)系網(wǎng)絡(luò)，因而具備了分析組團(tuán)欺詐的便捷手段。

(2)風(fēng)險預(yù)測

基于多維度的數(shù)據(jù)，從而建立起客戶、企業(yè)和行業(yè)間的知識圖譜，從行業(yè)關(guān)聯(lián)的角度預(yù)測行業(yè)或企業(yè)面臨的風(fēng)險。例如，通過對行業(yè)進(jìn)行細(xì)分，根據(jù)貸款信息、行業(yè)信息建立行業(yè)間的關(guān)系模型;通過機(jī)器學(xué)習(xí)，可發(fā)現(xiàn)各個行業(yè)間的關(guān)聯(lián)度，如果某一行業(yè)發(fā)生了行業(yè)風(fēng)險或高風(fēng)險事件，根據(jù)關(guān)聯(lián)關(guān)系可以及時預(yù)測有潛在風(fēng)險的其他行業(yè)。從而可以幫助金融機(jī)構(gòu)做出預(yù)判，盡早地規(guī)避風(fēng)險。

除此以外，通過知識圖譜，也可以將行業(yè)和企業(yè)之間數(shù)據(jù)進(jìn)行連接，借助對行業(yè)的潛在風(fēng)險的預(yù)測，能夠及時發(fā)現(xiàn)與該行業(yè)風(fēng)險或系統(tǒng)性風(fēng)險相關(guān)聯(lián)的企業(yè)客戶。例如，某地區(qū)某行業(yè)連續(xù)出現(xiàn)了多筆逾期貸款，通過對行業(yè)和客戶的知識圖譜進(jìn)行分析，可以及時發(fā)現(xiàn)該地區(qū)相關(guān)行業(yè)存在潛在風(fēng)險的客戶。

(3)精準(zhǔn)營銷

優(yōu)秀的企業(yè)可以比競爭對手更有效地挖掘潛在客戶，其中起關(guān)鍵作用的是分析用戶和理解用戶。知識圖譜綜合了多個數(shù)據(jù)源，挖掘出實體之間的關(guān)系，從而對用戶的行為有更好的理解，能更好、更深入地理解用戶的需求，挖掘已有客戶的潛在需求，針對性地推送相關(guān)產(chǎn)品，更好地為客戶提供營銷服務(wù)。比如，市場經(jīng)理可以用知識圖譜來分析用戶之間的關(guān)系，發(fā)現(xiàn)共同的喜好，從而有針對性的對某一類人群制定營銷策略;如果對知識圖譜擴(kuò)展(如增加車輛信息、個人愛好、行為等)，可以更加精準(zhǔn)地分析客戶行為，進(jìn)行精準(zhǔn)推送。

同樣，挖掘潛在客戶也是金融行業(yè)重點關(guān)注的工作。如果能夠通過全方位的數(shù)據(jù)，精準(zhǔn)、迅速地找到相關(guān)業(yè)務(wù)的潛在客戶，對于提升銀行的業(yè)務(wù)會有很大的幫助。基于銀行客戶建立社交網(wǎng)絡(luò)知識圖譜，根據(jù)各種社交行為(如交往方式、頻次等)發(fā)現(xiàn)圖譜的關(guān)系模型，對客戶社交網(wǎng)中的相關(guān)主體(如親屬、朋友、同事、同學(xué)、陌生人等)進(jìn)行挖掘，評估關(guān)系緊密度。

以上的業(yè)務(wù)不僅可以針對個人客戶，還可以針對企業(yè)級客戶。例如，分析企業(yè)客戶的資金關(guān)系、法人關(guān)系、上下游投資關(guān)系、相似企業(yè)業(yè)務(wù)關(guān)系等，為企業(yè)推薦合適產(chǎn)品、服務(wù)。

(4)智能搜索和可視化

基于知識圖譜，我們也可以提供智能搜索和數(shù)據(jù)可視化服務(wù)。智能搜索的功能指的是，知識圖譜能夠在語義上擴(kuò)展用戶的搜索關(guān)鍵詞，從而返回更豐富、更全面的信息。比如，搜索某個人的身份證號，可以返回與這個人相關(guān)的所有歷史借款記錄、聯(lián)系人關(guān)系和其他相關(guān)的標(biāo)簽(如黑名單等)。這些結(jié)果可以用圖形網(wǎng)絡(luò)的方式展示，從而把復(fù)雜的信息以直觀明了的圖像呈現(xiàn)出來，讓使用者對隱藏信息的來龍去脈一目了然。

如何建設(shè)企業(yè)應(yīng)用的知識圖譜?

如果想要針對特定行業(yè)或企業(yè)建立知識圖譜，首先，需要分析行業(yè)特點，創(chuàng)建統(tǒng)一的數(shù)據(jù)模型和視圖;然后，要對收集的各類行業(yè)數(shù)據(jù)進(jìn)行整合，并通過關(guān)聯(lián)計算找出數(shù)據(jù)間的關(guān)系，再使用圖數(shù)據(jù)庫保存及展示;最后，建立業(yè)務(wù)模型對數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)，挖掘有價值的信息支撐業(yè)務(wù)場景。

具體到金融行業(yè)，建立知識圖譜通常要經(jīng)歷三個主要步驟：

從海量的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)中識別金融實體;

根據(jù)業(yè)務(wù)需要，定義并識別金融實體間的各種關(guān)系，進(jìn)而生成知識圖譜;

定義并表達(dá)業(yè)務(wù)邏輯，通過在知識圖譜上實現(xiàn)各種具體任務(wù)來體現(xiàn)數(shù)據(jù)價值，如推理等，實現(xiàn)數(shù)據(jù)到智能的升華。

先來看第一個步驟：實體的識別是從文本中抽取出特定的實體信息，如時間、人物、地點、公司、產(chǎn)品等等，由此確定了知識圖譜中的點。

再來看第二個步驟：關(guān)系的識別則是指實體間的各種關(guān)系，如地理位置關(guān)系、雇傭關(guān)系、股權(quán)關(guān)系等等，這些關(guān)系確定了點與點之間的邊。需要說明的是，常用的抽取關(guān)系的方法有基于專家知識庫和基于機(jī)器學(xué)習(xí)等類型。其中，基于專家知識庫的方法是由行業(yè)專家構(gòu)筑大規(guī)模的領(lǐng)域知識庫，需要專家參與，一般耗時費力，但是質(zhì)量相對比較可靠;機(jī)器學(xué)習(xí)的方法需要構(gòu)造特征向量形式的訓(xùn)練數(shù)據(jù)，使用機(jī)器學(xué)習(xí)算法自動構(gòu)造。需要特別指出的是，對于非結(jié)構(gòu)化文本，實體識別和關(guān)系抽取需要基于自然語言處理算法，以及深度學(xué)習(xí)算法(例如，用詞向量的方式尋找近義詞，提高實體模糊識別的準(zhǔn)確度)，這是一個反復(fù)迭代、不斷精進(jìn)的過程。

最后來看第三個步驟：推理能力是人類智能的重要特征，是由一個或幾個已知的前提推出結(jié)論的過程，也可以從已有的知識中發(fā)現(xiàn)隱含的知識。在推理的過程中，往往需要一些規(guī)則的支持，例如：從“某人甲”既是“企業(yè)A”的法人也是“企業(yè)B”的法人，可以推測出“企業(yè)A”和“企業(yè)B”之間的關(guān)聯(lián)關(guān)系。當(dāng)然，這里會涉及到概率的問題。當(dāng)信息量特別多的時候，如何把這些信息有效地與推理算法結(jié)合在一起是最關(guān)鍵、最有挑戰(zhàn)性的工作。常用的推理算法包括基于邏輯和基于分布式表示的方法。隨著深度學(xué)習(xí)在人工智能領(lǐng)域取得的突破，基于分布式表示的方法已成為目前研究的熱點。

此外，金融知識圖譜還包含了很多其他的形式，例如：A股的公司、港股和美股的公司，各種基本面的數(shù)據(jù)、行情的數(shù)據(jù)都在逐漸的知識圖譜化，還有公告數(shù)據(jù)、研報數(shù)據(jù)、以及工商數(shù)據(jù)等都是金融知識圖譜的分支。

知識圖譜應(yīng)用面臨哪些困難?

知識圖譜在工業(yè)界還沒有形成大規(guī)模的應(yīng)用，很多仍處于調(diào)研階段，主要原因在于很多企業(yè)對知識圖譜并不了解，或者理解不深。但從目前的趨勢可以預(yù)測，知識圖譜在未來幾年內(nèi)必將成為工業(yè)界的熱門工具。當(dāng)然，知識圖譜在實際應(yīng)用中仍然將面對很多的挑戰(zhàn)。

（1）數(shù)據(jù)的可訪問性。

數(shù)據(jù)處理的最大煩惱常常是無法得到數(shù)據(jù)。由于種種原因，數(shù)據(jù)往往無法得到充分的公開，被封閉在數(shù)據(jù)孤島上;或者僅僅被用書面的方式保存，無法用電子形式讀取處理，可訪問性不好。提高可訪問性的主要手段是把數(shù)據(jù)電子化和網(wǎng)絡(luò)化，可以方便地通過網(wǎng)絡(luò)鏈接和訪問。其中涉及的技術(shù)有：網(wǎng)絡(luò)爬蟲、PDF格式轉(zhuǎn)文本、圖片中的字符識別和文本清理等。最后，使用大家廣泛接受的傳輸協(xié)議，提供不同平臺間的兼容。

（2）數(shù)據(jù)的可發(fā)現(xiàn)性。

原始數(shù)據(jù)中往往存在很多的噪聲，例如，數(shù)據(jù)本身在收錄時有錯誤，必須被糾正;再如，數(shù)據(jù)會有冗余，同一家公司的名稱可能會有全名、縮寫名等形式，處理時被當(dāng)作不同的公司對待等。這些都會對后繼的數(shù)據(jù)處理造成干擾，降低數(shù)據(jù)的可發(fā)現(xiàn)性。

（3）數(shù)據(jù)的深層關(guān)系。

因為海量的數(shù)據(jù)已經(jīng)遠(yuǎn)遠(yuǎn)超出人類的處理能力，依靠人力無法發(fā)現(xiàn)在數(shù)據(jù)中隱藏的眾多關(guān)系。人類也許能從數(shù)據(jù)中最多找出幾百個維度，但是機(jī)器使用自然語言處理的技術(shù)可以識別成千上萬個維度，特別是關(guān)系抽取。此外，各種推理的方法也非常重要，通過推理規(guī)則可以發(fā)現(xiàn)隱藏得很深的聯(lián)系。

（4）領(lǐng)域知識的集成。

金融涉及多個行業(yè)，可以分為上百個領(lǐng)域，這些領(lǐng)域都多少需要集成領(lǐng)域的專業(yè)知識。不管是投資還是制造，其中的主要概念、產(chǎn)品分類、市場競爭情況等都需要通過行業(yè)專家收集整理，并反映到領(lǐng)域知識庫中。其中需要的主要技術(shù)為：文檔篇章分割、中文分詞、實體提取及消歧、關(guān)系提取、規(guī)則庫建設(shè)等。金融領(lǐng)域中的征信、融資、資管、二級市場交易等都有具體的業(yè)務(wù)場景，都需要業(yè)務(wù)邏輯，這些邏輯在數(shù)據(jù)之上表現(xiàn)為模型，需要在基礎(chǔ)數(shù)據(jù)和領(lǐng)域知識的基礎(chǔ)上實現(xiàn)。

（5）策略的生成。

現(xiàn)有階段，機(jī)器在業(yè)務(wù)場景中還無法完全替代人類的作用，而是輔助人類作出價值判斷、風(fēng)險判斷，通過過往的案例或者既定的邏輯，為人類推薦可行的策略。在此，涉及到人工智能的方方面面：對用戶交互而言，有意圖理解、語言生成、用戶畫像匹配等;在業(yè)務(wù)層面，有邏輯生成、投資模型、風(fēng)險模型等;涉及的數(shù)據(jù)處理有規(guī)則提取、知識庫建設(shè)，語義檢索、邏輯推理等。

最后，我們必須看到，金融和所有其他領(lǐng)域一樣，正在逐漸被人工智能滲透，人類將會越來越多地依靠機(jī)器的幫助，更加科學(xué)地決策。今天的金融輔助工具已經(jīng)可以提供大量的幫助，讓投資人更容易地獲得數(shù)據(jù)和分析層面的支持，大大提高工作的效率。而在整個技術(shù)鏈中，知識圖譜居于核心地位，這是自金融報表電子化以來又一次質(zhì)的飛躍。知識圖譜是金融數(shù)據(jù)分析從簡單的量化模型走向更為復(fù)雜的價值判斷和風(fēng)險評估必經(jīng)的一環(huán)，把經(jīng)驗逐步變成可重用、可演化、可驗證、可傳播的知識模型，從而實現(xiàn)數(shù)據(jù)到智能的升華。

最新動態(tài)