国产6699视频在线观看_女人爽到喷水的视频大全_亚洲欧美日韩国产视频亚洲欧美综合日韩久久_中文字幕无码久久东京热_av电影中文一区

 
首頁 > 理財(cái) >
 
 

專題丨價(jià)值領(lǐng)航,數(shù)據(jù)掘金——招商銀行沈陽分行數(shù)據(jù)分析與挖掘的優(yōu)化實(shí)踐之路

2023-01-31 08:42:13  來源:金融電子化

隨著金融科技和數(shù)字化轉(zhuǎn)型的逐步推進(jìn),數(shù)據(jù)已成為招商銀行的戰(zhàn)略性資產(chǎn)并呈現(xiàn)出爆發(fā)式增長,數(shù)據(jù)驅(qū)動業(yè)務(wù)發(fā)展已成為銀行工作的重心。如何運(yùn)用好大數(shù)據(jù),發(fā)揮數(shù)據(jù)資產(chǎn)的商業(yè)價(jià)值,成為大數(shù)據(jù)時(shí)代的核心挑戰(zhàn)。近三年來,為更好地賦能各業(yè)務(wù)條線,分行信息技術(shù)部在數(shù)據(jù)挖掘的深度和廣度上持續(xù)優(yōu)化探索,在客戶獲取、促活、提升和防流失等多種業(yè)務(wù)場景里開展大量而持續(xù)性的工作,構(gòu)建二十余個(gè)預(yù)測模型,服務(wù)于業(yè)務(wù)一線的產(chǎn)品經(jīng)理和客戶經(jīng)理,高效實(shí)現(xiàn)價(jià)值增值。


(資料圖)

數(shù)據(jù)挖掘建模持續(xù)優(yōu)化過程是重要且必要的,并且數(shù)據(jù)挖掘建模持續(xù)優(yōu)化過程也是有規(guī)律可循的。本文結(jié)合分行信息技術(shù)部在數(shù)據(jù)挖掘上持續(xù)優(yōu)化的探索實(shí)踐,將數(shù)據(jù)挖掘建模優(yōu)化分為從業(yè)務(wù)思路上優(yōu)化和從技術(shù)思路上優(yōu)化。

招商銀行沈陽分行信息技術(shù)部 總經(jīng)理 溫更

從業(yè)務(wù)思路上優(yōu)化

“以業(yè)務(wù)為核心,以思路為重點(diǎn),以挖掘技術(shù)為輔佐”是數(shù)據(jù)挖掘?qū)嵺`成功的基礎(chǔ)。從業(yè)務(wù)思路上優(yōu)化模型是最重要的模型優(yōu)化措施,對于模型效果的提升是根本性、源頭上的突破。從業(yè)務(wù)思路上優(yōu)化主要可以從以下幾個(gè)方向進(jìn)行考慮。

1.特征標(biāo)簽優(yōu)化

在數(shù)據(jù)挖掘建模的工作中特征工程耗時(shí)最長,而特征標(biāo)簽的選取是特征工程中的重要環(huán)節(jié)。例如從海量數(shù)據(jù)中提取有意義的特征,需要和預(yù)測目標(biāo)呈潛在的強(qiáng)關(guān)聯(lián)關(guān)系才能對建模有益,而這些完全依賴于對業(yè)務(wù)的理解,需要業(yè)務(wù)專家根據(jù)多年的業(yè)務(wù)經(jīng)驗(yàn)給出提取思路。

以沈陽分行的金卡客群流失預(yù)警模型為例,最初選取的特征標(biāo)簽都是資產(chǎn)類和轉(zhuǎn)賬類特征。通過調(diào)試模型AUC達(dá)到了0.85,準(zhǔn)確率60%,從評價(jià)指標(biāo)上看模型的效果優(yōu)異。但從業(yè)務(wù)人員應(yīng)用模型的視角出發(fā),資產(chǎn)類和交易類都是大而全的宏觀特征,無法直接通過這些特征總結(jié)出有效防止客戶流失的策略。評價(jià)模型的優(yōu)劣需要基于模型業(yè)務(wù)落地應(yīng)用后的實(shí)際效果和業(yè)務(wù)反饋,進(jìn)而意識到在原有標(biāo)簽的選取上缺少業(yè)務(wù)事件背后的真實(shí)原因。因此,需要結(jié)合業(yè)務(wù)專家對事件的分析,優(yōu)化特征指標(biāo)。

結(jié)合業(yè)務(wù)專家的分析,優(yōu)化做法是在原有的資產(chǎn)類和轉(zhuǎn)賬類特征基礎(chǔ)上,加入事件類、APP行為類和經(jīng)營類等能夠指導(dǎo)業(yè)務(wù)方向的特征,這樣根據(jù)模型的特征重要性就可以清楚知道如何去挽回客戶,會大幅提升模型的效果和模型落地的有效性和準(zhǔn)確性。

2.特征標(biāo)簽重構(gòu)

特征標(biāo)簽重構(gòu)指在原始特征標(biāo)簽的基礎(chǔ)上生成衍生變量,生成衍生變量的目的很直觀,即通過對原始數(shù)據(jù)進(jìn)行簡單、適當(dāng)?shù)臄?shù)學(xué)公式推導(dǎo),產(chǎn)生更加有業(yè)務(wù)意義的新變量,從而來捕捉重要的業(yè)務(wù)關(guān)系。衍生變量允許數(shù)據(jù)挖掘模型把人類的見解融入到建模過程中,并允許模型利用客戶、產(chǎn)品和市場等已知的重要特征。創(chuàng)建衍生變量是數(shù)據(jù)挖掘過程中最有創(chuàng)意的部分之一。精心重構(gòu)的衍生變量可以增強(qiáng)模型預(yù)測的準(zhǔn)確性和可解釋性。

以沈陽分行的金卡客群流失預(yù)警模型為例,在原始的特征標(biāo)簽基礎(chǔ)上通過組合和數(shù)學(xué)公式推導(dǎo)的方式加入了大量重構(gòu)的衍生變量,例如將交易金額、交易筆數(shù)和交易摘要、交易方向等特征分別進(jìn)行組合,得到更加細(xì)分的交易特征;運(yùn)用數(shù)學(xué)公式推導(dǎo)的方式,通過標(biāo)準(zhǔn)差除以均值得到近30天支出筆數(shù)的波動系數(shù),通過計(jì)算斜率得到近7天交易金額的變化率,還有將原始特征標(biāo)簽減去平均值的去中心化操作等。加入衍生變量后,AUC和準(zhǔn)確率都有明顯提升,AUC達(dá)到了0.87,準(zhǔn)確率提升到65%。中心化處理等操作因?qū)⒔^對值轉(zhuǎn)換成為相對值,并且新加入的衍生變量的特征重要性排名也都非??壳埃M(jìn)一步增強(qiáng)了模型的解釋能力。

3.特征標(biāo)簽前移

數(shù)據(jù)挖掘利用高于人類的計(jì)算能力,幫助人類洞察隱性或潛在價(jià)值,甚至得出人類無法感知的結(jié)論。因此在做數(shù)據(jù)挖掘前,必須考慮處理同一業(yè)務(wù)場景時(shí),業(yè)務(wù)專家的處理方式。參考業(yè)務(wù)專家的觀點(diǎn),認(rèn)為金卡客群是一個(gè)龐大的群體,細(xì)分客群后再分析金卡客群流失問題效果會更好。

特征標(biāo)簽前移指在建模之前先根據(jù)特征標(biāo)簽進(jìn)行細(xì)分客群,其建模思路和作用是對分析對象的一次篩選。細(xì)分后的各個(gè)群體相比之前的整體對象多了精細(xì)化的分割,群里多了共性特征。對精細(xì)化的群體分別建模,能顯著提升模型的效果。

針對金卡客群流失預(yù)警模型,建模之前將金卡客群細(xì)分為代發(fā)客群、理財(cái)產(chǎn)品到期客群、信貸客群等分別進(jìn)行建模,AUC平均提升4個(gè)百分點(diǎn)。

4.特征標(biāo)簽后移

建模結(jié)論的業(yè)務(wù)可解釋性也是一個(gè)好的數(shù)據(jù)挖掘項(xiàng)目的重點(diǎn)要求。特征標(biāo)簽后移指在建模結(jié)束得到預(yù)測結(jié)果后,通過分析客戶的特征標(biāo)簽來解釋業(yè)務(wù),制定下一步的營銷策略,即將模型結(jié)果高效精準(zhǔn)落地。數(shù)據(jù)挖掘的輸出是預(yù)測的結(jié)果,而業(yè)務(wù)的期望是模型的精準(zhǔn)落地。因此得到預(yù)測結(jié)果后對客戶特征標(biāo)簽的分析必不可少。

以金卡客群流失預(yù)警模型為例,用XGBoost算法得到兩個(gè)輸出:一是潛力流失的客戶;二是模型的特征重要性排名,排名靠前的特征標(biāo)簽即是篩選出的高價(jià)值的特征標(biāo)簽。為了實(shí)現(xiàn)模型的業(yè)務(wù)可解釋性,下一步即可對這些特征標(biāo)簽進(jìn)行傳統(tǒng)統(tǒng)計(jì)學(xué)描述性分析,從而得出將模型落地的實(shí)施方案。

從技術(shù)思路上優(yōu)化

從建模的技術(shù)思路上優(yōu)化是指在建模的算法和建模技巧方向上進(jìn)行比較、權(quán)衡。建模的算法優(yōu)化是指不同建模算法的選擇過程;建模技巧的優(yōu)化是指在特定的建模算法基礎(chǔ)上,模型特征標(biāo)簽不同抽樣方法或不同預(yù)處理方法的選擇過程。

1.建模算法的優(yōu)化

大財(cái)富管理最核心的能力是在洞察客戶、洞察市場基礎(chǔ)上為客戶創(chuàng)造價(jià)值的能力。而“洞察”對科技而言,就是基于數(shù)據(jù)和算法形成的判斷。數(shù)據(jù)是燃料,算法是引擎。算法和數(shù)據(jù)都很重要,數(shù)據(jù)挖掘的研究與實(shí)踐其實(shí)就是在這兩個(gè)領(lǐng)域發(fā)揮能力。針對數(shù)據(jù),我行數(shù)據(jù)的體量、種類、價(jià)值等多維度的豐富程度完全能夠支撐算法充分的發(fā)揮。針對算法,要掌握多種不同的建模算法,同時(shí)還要善用集成學(xué)習(xí)技術(shù)。通常,在不同的隨機(jī)數(shù)據(jù)集上學(xué)習(xí)多個(gè)分類器能夠建立更強(qiáng)大的模型。在算法的選擇上,推薦奧卡姆剃刀原則:用能夠滿足需求的最簡單的算法,如非絕對地必要,不要增加復(fù)雜性。按照從簡單到復(fù)雜排序,可以選擇的算法包括邏輯回歸、決策樹、支持向量機(jī)、深度神經(jīng)網(wǎng)絡(luò)等。不同的建模算法針對不同的具體業(yè)務(wù)場景會有不同的表現(xiàn),針對同一個(gè)業(yè)務(wù)需求,可以多嘗試不同的建模算法,從中比較、權(quán)衡,擇其優(yōu)者而用之。

2.建模技巧的優(yōu)化

該方向包括參數(shù)調(diào)整、不同的抽樣方式、不同的特征標(biāo)簽預(yù)處理方式等,這部分優(yōu)化在于多做實(shí)驗(yàn),最后選取最優(yōu)的方式。以抽樣方式為例詳細(xì)介紹,采取抽樣措施,主要原因在于如果數(shù)據(jù)全集的規(guī)模太大,針對數(shù)據(jù)全集進(jìn)行分析運(yùn)算不但會消耗更多的運(yùn)算資源,還會明顯增加運(yùn)算分析的時(shí)間。而采用抽樣措施,可以顯著降低這些負(fù)面的影響,在很多小概率事件、稀有事件的預(yù)測建模過程中,如果按照原始的數(shù)據(jù)全集、原始的稀有占比來進(jìn)行分析挖掘,很難通過分析挖掘得到有意義的預(yù)測和結(jié)論的,所以對此類稀有事件的分析建模,通常會采取上抽樣或者下抽樣的措施,即人為的增加樣本中的“稀有事件”的濃度和在樣本中的占比。對抽樣后得到的分析樣本進(jìn)行分析挖掘,可以比較容易地發(fā)現(xiàn)稀有事件與分析變量之間有價(jià)值、有意義的一些關(guān)聯(lián)性和邏輯性。

建模優(yōu)化的限度

數(shù)據(jù)化運(yùn)營實(shí)踐中的數(shù)據(jù)分析和數(shù)據(jù)挖掘非常強(qiáng)調(diào)時(shí)效性,在業(yè)務(wù)需求給出的有限時(shí)間里完成優(yōu)化并投入應(yīng)用。因此,時(shí)間因素是思考適度的主要維度。數(shù)據(jù)挖掘模型的每一次優(yōu)化和提升都需要有資源的投入,且滿足特定的業(yè)務(wù)需求。在模型優(yōu)化和資源投入之間,在投入數(shù)據(jù)分析資源和滿足特定業(yè)務(wù)需求之間,又有一個(gè)微妙的平衡點(diǎn)——性價(jià)比,其決定了模型的優(yōu)化和完善既需要持續(xù)探索又是有限度的。

總結(jié)

大數(shù)據(jù)蘊(yùn)含的潛在可能性和海量機(jī)會仍有待持續(xù)開發(fā)。本文結(jié)合銀行數(shù)據(jù)分析工作,分析了數(shù)據(jù)挖掘建模持續(xù)優(yōu)化過程的重要性,通過案例探討了從業(yè)務(wù)思路上優(yōu)化和從技術(shù)思路上優(yōu)化的實(shí)踐路徑。在建模過程中,業(yè)務(wù)思路上的優(yōu)化比建模算法上的優(yōu)化更重要,而建模算法上的優(yōu)化又比單純的建模技巧的優(yōu)化更重要。最后我們也要深刻地認(rèn)識到,數(shù)據(jù)挖掘建模的優(yōu)化絕不僅僅是技術(shù)問題,更多需要從業(yè)務(wù)視角去實(shí)現(xiàn)數(shù)據(jù)驅(qū)動和價(jià)值交付。

(欄目編輯:楊昆樺)

關(guān)鍵詞: 數(shù)據(jù)挖掘 建模算法 沈陽分行

  
相關(guān)新聞
每日推薦
  • 滾動
  • 理財(cái)
  • 房產(chǎn)