欧美性猛交xxxx乱大交hd,一级黄色大片免费观看,精品国产免费一区二区三区香蕉,免费视频二区,中国免费黄色片,91碰碰视频,亚洲21p

首頁 > 專題 > 文思海輝-乘數據之舟-達價值彼岸 > 數據分析之道--銀行業(yè)數據挖掘分析的現狀與前瞻(西安站)

數據分析之道--銀行業(yè)數據挖掘分析的現狀與前瞻(西安站)
2014-11-28 11:55:05   評論:0 點擊:

  隨著中國金融市場的快速發(fā)展,互聯網金融對傳統金融行業(yè)的競爭,以及監(jiān)管力度的不斷加強,IT咨詢服務公司對金融企業(yè)的商業(yè)智能方案也面臨不斷創(chuàng)新。如何提升金融機構在管理、盈利、風險控等多方位的能力?如何將國際經驗更好的為中國市場服務?如何通過解決方案將海量數據轉化為對經營決策有價值的信息之路?如何將客戶智能分析成果行之有效地運用于服務渠道,并最終轉換為銷售業(yè)績?為解決中國金融機構在發(fā)展中所面臨的新問題,文思海輝在西安、蘇州、北京、成都、深圳五地舉辦了6場“乘數據之舟,達價值彼岸”系列活動。

  在主題為“乘數據之舟,達價值彼岸”的文思海輝商業(yè)智能解決方案系列研討會西安站現場,文思海輝商業(yè)智能事業(yè)部高級經理馬寧做了“數據分析之道--銀行業(yè)數據挖掘分析的現狀與前瞻”主題演講。



文思海輝商業(yè)智能事業(yè)部高級經理 馬寧

  以下為演講實錄:

  大家好最后一個議題,也是最時髦的議題,關于銀行業(yè)的數據挖掘。這張片子不知道大家是不是第一次見,但我敢保證肯定不是你們最后一次看這張片子及接下來的兩張片子,業(yè)內會把數據分析分成八個等級,前四個等級是驗證性的,我們的目的是了解過去,而后四個等級和更高等級是預測性的,它用來發(fā)現未來,驗證型的包含普通的報表,查詢預警風險,發(fā)掘型的是一些更深的比如統計分析,時間序列的分析,去建一些預測模型,以及最復雜的形式,我們會用一些運籌學的知識做流程優(yōu)化。

  數據挖掘我們在執(zhí)行時始終遵循BM的執(zhí)行方法論,它包含六個主要步驟,從業(yè)務理解到數據理解,數據準備,建立模型評估模型,最終部屬這個模型。

  先來看業(yè)務理解,我們銀行最常見的信用卡產品,來看整個客戶的生命周期,產品周期是怎樣的,下面是隨著生命周期的演進,客戶價值的曲線,我們一開始在獲取這個客戶的時候,是付出成本的過程,客戶是附加值,隨著客戶逐漸成熟,價值在提升達到他的峰值,有可能客戶會流失或者發(fā)生一些違約欺詐行為,導致客戶最終的價值又變?yōu)榈母郊又,在整個過程中,上面列出來的是業(yè)務所關注的各個視角,而下面是數據挖掘在每個過程中輔助業(yè)務做出的各種量化判斷與分析。我在這里會把所有數據挖掘的專題分成營銷類風險管理類的,剛才劉密和宋楊兩人提到的兩大類型。營銷類關注的是我怎么更好的獲取客戶,了解客戶,給他們賣更多的產品,幫助我更好的盈利,風險類的無外乎客戶的申請評分,行為評分,欺詐管理等等防范銀行的風險,我們把營銷展開來看,數據挖掘這一層在整個營銷層中中間地位,它承接了數據層的數據,為營銷的決策提供營銷客戶名單,以及基于這個名單的具體實施流程,主要包含了客戶細分,營銷預測等等。

  風險管理第一大部分是基于巴塞爾框架,有信用風險,市場風險操作風險以及流動性風險,上面每一個領域我們研究的主題對象是什么,下面是我們用挖掘模型去量化的一些具體的指標和專題是什么,同樣在反欺詐里面也會做數據挖掘的模型,做時時的檢測和行為分析。這里面我列出來了某家銀行他們目前在建的所有的和數據挖掘有關的模型情況,基本上是符合我們剛才介紹的框架,零售做營銷類的,兩個風險部門做具體的信用風險和流動性風險的各種模型,信用卡中心單獨做風險ABC卡,以及營銷的客戶分群和營銷預測。使用到的產品和市場上主流的SPSS這樣的工具。

  看第二步關于數據的理解,我們要做一個客戶的營銷,一定要了解你的客戶,客戶具有什么樣的屬性,是做客戶模型的重中之重,我們提倡建立客戶的360度的試圖,其中灰色字的部分是我們行內比較具備的數據,而黃色字的部分是我們比較欠缺的需要收集的部分,行內現有的數據真的足以支撐對客戶360度的分析嗎?首先我們來看行內是有自己數據壁壘的,出于安全敏感性的考慮,各個部門的數據可能不能充分的共享,各個系統之間有對接的成本,以及數據質量帶來的各種問題,同時行內的數據其實是非常非常局限的客戶視角,我們只看到了客戶的金融屬性,你看到客戶買一雙鞋,你不知道客戶為什么買這雙鞋,同時第三方支付平臺的出現,使得連我們最后客戶買這雙鞋這個事情都不知道,就知道他花了二百塊錢,所以現在一些大銀行在探討如何拓展行內的數據以及銜接行外的數據,去獲取更多客戶信息,互聯網上提供了大量這方面的信息,餐飲的,購物的房產以及綜合類的信息,很多銀行在嘗試建立自己的電商平臺,把自己的非結構化數據項結構化數據轉換,以及利用API去互聯網上爬數據,和其它的數據提供方進行合作。

  有了這些數據之后,我們終于可以開始進行數據的準備,打算建立一個挖掘模型,傳統的數據準備這種架構,從我的數據存儲平臺ODS數倉遷移到數據分析平臺SPSS,在這里面做基礎的數據加工,遵循八二原則,會有80%的數據拼接匯總在這里充分利用數倉的優(yōu)勢完成。具體的統計過程相關的數據處理剩下的20%在數據挖掘平臺來執(zhí)行,這樣的問題是有大量的建模數據,有一個遷移的過程,現在一個大的趨勢就是存儲節(jié)點與計算節(jié)點的融合,數據在哪里存儲就在哪里結算,比如一些庫內計算的框架,以及大數據hadoop這樣的平臺上都是這樣的平臺,直接操作,把中間結果保存于內存中,數據處理的效果更高。

  接下來模型這里面簡單挪列了一下數據挖掘經常會遇到的模型,時間的原因我們不仔細展開講,大致四類,分類模型,回歸模型,聚類模型以及數據建緯的一些算法,分別用于解決不同的問題,我們做的最常見的其實是預測模型,預測模型就是我拿到很多歷史數據,我如何根據歷史數據來預測未來,舉一個簡單例子,我現在要判斷一個企業(yè)它的違約概率,剛才說的PD模型,我收集了它歷史上2006年到2012年的數據,因為現在2014年了,2013年發(fā)生違約我是知道的,我在這里面希望找到一個函數關系,把收集的數據財務指標,帳戶行為影射到最后的違約概率上來,一個最簡單的模型,比如他是房地產業(yè),房地產業(yè)這幾年被限制,所以它的違約概率會高一些,如果不是房地產業(yè),違約概率低一些,非常粗糙的模型,確實是一個數據挖掘的模型,我如果找到這樣的關系,我可以做預測,如果時間往后退一年,2007到2013年的數據我已經收集齊了,到2014年這家行業(yè)就可以利用這個公式算他的違約概率是多少,這就是最簡單的預測模型的例子。

  模型做好之后,下一步是模型部屬上線,我們這里不談模型的技術部屬,模型的評估兩方面,一方面從統計指標評估,是不是符合我們的要求,有各種各樣檢驗指標,準確性、違約性等等,另一方面看這樣的模型從業(yè)務上是否有可應用的能力,比如它得到的結果是不是符合業(yè)務上的主觀認知和業(yè)務經驗,它使用的變量有沒有政策法律風險,比如說我去做一張信用卡評分模型,會發(fā)現在美國黑人他的違約率很高的,但是我們把膚色這個變量方進模型肯定是不行的,會帶來各種各樣的法律問題。

  最后模型的部屬,模型做好是要上線應用的,我們的應用模式有這么幾種,一種打標簽給客戶做聚類,通過客戶的各種屬性分成各種各樣的類型,甚至一個客戶有多種標簽,將來搞營銷活動的話,我從中優(yōu)選到底推送美食愛好者,還是推送給網購達人,另一種模式我們給客戶做批量評分,這里面我算一下我客戶的流失率是多少,算流失率具體的數值0到1之間,也會估算一下如果客戶流失,他目前的資產是多少,流失以后行業(yè)有可能造成資產損失是多少,拿到這么一個龐大流失名單以后,我們怎么挽留這些客戶,我們挽留誰,甚至我們可以算一下,每一個客戶如果說我要挽留他的話,花費一個單位的成本,如果一個客戶其實不會流失,我就白白挽留他了,一個成本掏出去之后,是一個準成本,但如果一個客戶真的會流失,我如果成功留住,雖然我留住這個客戶的概率是0.3%,但是這個人如果留住他會給我?guī)?0單位的價值的話,進去一個單位的挽留成本,我會掙五塊錢,雖然這也是一個比較粗糙的估算,但是我就可以知道,這個名單上前百分之多少的客戶我把他挽留住,能給我?guī)碚麄銀行效益的最大化,這是實際做的例子,告訴我們某家銀行私人銀行的客戶,我們建議他按照這個名單從高到低的概率排序的話,建議他挽留前9.7%的客戶。

  除了挖掘出名單之后,同樣的對這個名單業(yè)務的執(zhí)行是非常重要的,這也是我們實際案例的數據,我們在某家銀行三個分行里面搞產品營銷,我怎么知道最后營銷效果好壞,是我的模型做的好與不好,還是我這個名單到客戶經理那邊以后,他的執(zhí)行是有利的,還是不利的,我們這樣做,我們把對照組是隨機的客戶名單,而不是挖掘的客戶名單,讓他交給客戶執(zhí)行,既是挖掘名單又有客戶經理執(zhí)行,就是簡單的挖掘名單,我們關注這些人,對他進行營銷,到時候每組的簽約率可以算出比值,這個比值就可以知道到底是執(zhí)行的問題,還是算法。

  在大數據時代能看到這是麥肯錫在2013年對各個行業(yè)大數據應用前景做的調查,他認為銀行業(yè)這個橫軸指使用大數據所帶來的價值和潛力,縱軸代表這個行業(yè)收集大數據的可行性,顏色代表這個行業(yè)內部的競爭壓力,以及圓形的大小代表這個行業(yè)對美國GDP的貢獻,可以看到銀行業(yè)是處在正張圖的最右上角,因此銀行業(yè)是我們將來使用大數據最重要的領域之一。有了大數據之后,我們的客戶試圖更加完善,我們更加了解我們的客戶,再做傳統客戶分析模型時,我們可以從更多的視角了解我們的客戶,而不是簡單的以前的傳統很枯燥的做法,我可以知道我的客戶他家周圍有多少家其它銀行的網點,如果新開一些其它銀行網點,會不會導致流失,都會成為我們考慮的因素。

  一些國際上領先的銀行,已經開始嘗試使用大數據技術對客戶進行深入研究,他們會記錄客戶每次消費地點,客戶經常去的地方,來看客戶是否經常外出吃飯,是否為了一個打折商品,犧牲距離去很遠商場買東西等等,他們這樣精細的記錄客戶的行為,是為了把客戶細分,再細分,甚至細分到一個人,一個人做精細化的營銷,其它的一些項目花旗銀行他使用了文本分析技術,去了解客戶在社交網絡上,提供了各種對銀行產品服務的個種信息,這是一個三方的評級公司,他們研究客戶的信用指數與他的一些習慣,姓名的大小寫,喜歡車的品牌等等之間的關系,這都是我們在傳統分析里面從來沒有考慮過嘗試過的視角。

  剛才說了這么多數據挖掘與分析的事情,什么人來做這樣的事情,有很多對數據科學家的定義在這里不想挨個念一遍,我們認為數據科學家和傳統的數據分析者是具有一定的差異,他們首先要對非結構化的數據有轉換加工的能力,我拿到了一個語音,一個視頻,我想分析它,我不可能直接分析,我要做轉換文本的識別,以及對混雜的不匹配的數據做匹配,以及海量的數據,我通過什么樣的平臺高效的處理這樣的數據,這是2011年EMC做的市場調查,有三分之二的企業(yè)認為在未來的五年中,是非常非常需要大數據人才,這是美國的一個求職網站對于大數據和數據科學家相關人員的需求量,這是從2011年開始的積分。

  最后一個問題挖掘技術得加強,是我們文思海輝商業(yè)智能的數據挖掘團隊,我們有來自于芝加哥大學、清華大學、北京大學等多個著名高校碩士博士組成,我們是一支既懂業(yè)務,又懂數據還懂統計分析的團隊,這個是我們在銀行業(yè)和證券業(yè)所有的成功案例,謝謝大家。

錯誤報告  分享到: