三位大數據專傢10年實戰經驗總結大數據與機器學習實踐方法與案例

  從數據、基礎平臺、分析方法、行業應用4個維度,以場景化方式講解數據從獲取、預處理、挖掘、建模、結論分析與展現到系統應用的流程,以及機器學習的重要技術。

  三位金融領域的大數據專傢近10年行業實戰經驗總結,包含大量行業解決方案和案例,並公開源代碼

  本篇分為三部分,共15章的內容,由於細節內容太多瞭,所以小編把部分知識點截圖出來粗略的介紹,每個小節裡面都有更加細化的內容。 第一部分,數據與平臺篇對於大部分非計算機專業出身的分析人員和業務人員來說,數據庫領域的專業術語簡直讓人抓狂,非要搞得那麼高深嗎?大可不必。數據科學傢是數據的應用者,以最大限度來提煉數據價值為目的,不必像數據倉庫開發者那樣對數據的存儲、結構以及數據倉庫的內生技術一清二楚,但應該站在找到數據、拼接數據、使用數據的角度,大體瞭解數據的分佈、處理邏輯,以便為分析快速地準備素材。

  第1章,數據與數據平臺

  本章首先將從數據的基本形態人手,介紹企業中數據的來源和表現形態;然後介紹與之相關的數據平臺,並簡單介紹兩類應用系統。在著手處理數據之前,讓我們先對數據有一個清晰的認識。

  第2章,數據體系

  數據的流動伴隨著形態的變化(回憶數據的三種形態:生產數據、原始數據、分析數據),我們知道數據最終仍然要回歸於生產系統(從生產中來,到生產中去),一切離開瞭生產應用的數據分析和處理都是徒勞無益的。

  因此,要構建一個健康的數據體系,這個體系要像貨幣流通系統那樣能夠循環和增值,這是本章將要討論的主題。

  第3章,實戰:打造數據閉環

  前面兩章已經介紹瞭數據閉環的各個主要環節和涉及的技術,本章將基於前文提出的理念和技術來實現數據閉環。按照數據的流轉過程以及主要負責人的職責,整個數據閉環.將由三個環節組成。

  第二部分,分析篇分析方法,是大數據的價值核心,使數據變為知識。對於數據分析師來說,任何可以對數據進行計算、分析以發現規律、提煉規則、獲取知識的方法和算法都可以為我所用,包括統計學、社會學、運籌學、市場營銷、數據挖掘、自然語言處理及機器學習等。本文結合銀行和互聯網企業的實際應用場景,介紹一些最具代表性的數據分析方法。

  第4章,數據預處理

  數據之於數據分析,好比食材之於烹飪,磚瓦之於高樓,其質量是否可靠,處理是否得當,將直接決定數據分析的結論是否準確可靠。在整個數據分析過程中,數據的清洗處理占據相當大的工作比重。

  第5章,聚類,簡單易用的客戶細分方法

  因此,客戶細分是客戶洞察、精準營銷以及客戶關系管理的基礎,而在市場營銷中,市場細分( market segmentation)、 確定目標市場( market targeting) 和市場定位( marketposition) 也是其三大理論核心。聚類分析,就是將分析對象按照相似性劃分歸類,同一類內的對象具有更高的相似性,不同類之間的對象存在差異,將共性和個性區分開來,與客戶細分的理念可謂不謀而合。聚類,為瞭客戶細分而生。

  第6章,關聯規則挖掘,發現產品加載和交叉銷售機會

  馬克思主義認為,世界萬物是聯系的、發展的,並且這種聯系是多樣的、普遍存在的。因此,人與事物都不可能孤立存在,-件事情的發生往往會引起或伴隨著另一件事情的發生。當我們發現瞭一-件事情時,就可以由此推測另外- -件事情的發生,當然,前提條件是我們已經掌握瞭哪些事情之間存在聯系。這就是數據挖掘經典方法之一的關聯規則挖掘的核心價值。在眾多業務領域中,交叉銷售是應用關聯規則提升銷售成功率和客戶價值貢獻的典范,通過發現產品或客戶行為之間的關聯規則,例如有些產品經常被一起購買、 代發工資日開放式理財產品旺銷、購買壽險的客戶往往也會購買健康險等,構建交叉銷售體系,實現銷售額、服務效率和客戶體驗的綜合提升。

  第7章,社交網絡分析,從”關系”的角度分析問題

  社交網絡分析是研究一組行動者關系的方法,一組行動者可以是人、社區、群體、組織、國傢等,其關系模式反映出的現象或數據是網絡分析的焦點。因此,社交網絡分析關註的焦點是關系和關系的模式,采用的方式和方法從概念上有別於傳統的統計分析和數據處理方法。十年前,IBM公司使用這種方法研究團隊建設和知識管理,在當時絕無僅有。而現在,這種分析越來越時髦,其研究思路在眾多業務領域中得以應用,並成為大數據分析的重要方向。

  第8章,線性回歸,預測客戶價值

  預測分析方法有很多種,根據目標變量的類型,大體可分為兩種:回歸分析和分類。預測的結果如果是離散選項(比如用戶會1不會購買某種產品、偏好短信/電話/微信渠道等),則通常稱為分類;預測的結果如果是連續數值(比如交易量、客戶價值等),則通常稱為回歸分析。本章將介紹統計學領域最經典的線性回歸方法,隨著對更多預測方法的瞭解,你會發現其中可看到線性回歸的影子。

  第9章,Logistic回歸,精準營銷的主要支撐算法

  第10章,決策樹類算法,反欺詐模型“專傢’

  第11章,數據可視化,是分析更是設計

  本章根據筆者的實際經驗,介紹圖表和報告制作的一些經典規則,並結合兩種個性化圖形的制作方法,拋磚引玉,當Excel、Tableau等可視化工具的默認功能不支持時,應該怎樣充分利用免費資源,體現出自己的個性化。

  第三部分,應用篇,數據由生產系統產生後,經過數據ETL、信息統一、格式規整等過程進入分析環境,這是數據經歷的第一次價值提升。在分析環境中,數據工程師對數據進行分析挖掘,從數據中進一步提煉出“價值”, 這是數據脫離生產環境後的第二次價值提升。要形成完整的數據閉環,則需要數據的第三次價值提升,即數據重新應用於生產系統,“從生產中來,到生產中去”。 過去,數據應用於生產系統一般局限於周期性的、批量性的應用,比如從大量信用卡持卡人中,通過專傢規則或者數學模型篩選出一部分客戶,並對這些客戶進行批量營銷。整個過程手工操作占瞭絕大部分,這並不是真正意義上的數據驅動的應用系統。 真正的數據驅動的應用系統,應該是立足於數據,使用各種自動化手段,讓數據“自動”流轉於各個環節,並具有靈活的可配置性(通過配置滿足多種應用場景)和交互性(有Web界面可供查看,而不全是後臺處理)。

  第12章,標簽系統

  從批量處理的分析環境到偏重“點”處理(逐條)的應用系統,著重要解決的是數據處理的時效問題。當數據應用系統接收到業務請求時,系統需要快速得出結果,做出反饋。因此,效率問題是數據應用於生產面臨的首要問題。

  第13章,數據自助營銷平臺

  作為數據人員,總是會被問及一個現實的問題:數據如何產生價值?很多情況下,數據通過間接的方式產生價值,而公司決策層卻希望看到數據產生的直接價值,這也是很多公司對數據建設缺乏熱情的重要原因。

  數據產生價值的最直接途徑非“數據營銷”莫屬,數據營銷的理念已經提出瞭很多年,幾乎每個公司的領導層都曾可能在會議上提及“數據營銷”的概念,但要真正實現數據營銷,並不像想象中的那麼輕松。

  實際上,“數據營銷”已經可以算是數據應用的高級形式瞭,首先必須有一個可靠且高效的數據基礎平臺,其次要有具備成熟經驗的數據挖掘和數據建模團隊,最後還要有系統開發應用團隊。

  當公司具備充分條件時,再來看數據營銷,將是一件水到渠成的事情。當然,數據營銷同樣應該系統化、自動化,這是數據應用系統的又-一個實證。

  第14章,基於Mahout的個性化推薦系統

  學習本章,你不需要掌握那些“高深”的數學知識,甚至不需要知曉推薦算法的具體細節,因為這些已經被Mahout封裝在各個java類中,你所要具備的是對應用場景的理解及與Mahout推薦引擎相關的知識。

  第15章,圖計算與社會網絡

  社會網絡是個體之間彼此關聯形成的-一個網狀體系,它是-一個網狀圖。個體稱為節點,個體之間的關聯稱為關系(邊), 所以社會網絡也可以稱為關系網絡。

  過去,關系網絡的應用范圍受到很大限制。主要原因在於關系網絡一般都非常龐大且復雜。傳統的關系型數據庫在存儲多邊關系時遇到瞭困難,同時使用傳統的關系數據庫范式存儲關系網絡,則在計算效率上出現嚴重缺陷,例如,要在一個存放有1000萬張信用卡客戶數據的數據庫中,遍歷所有客戶的聯系人網絡,幾乎成為一項無法完成的任務。

  好在面對困難時,總會出現轉機,Spark Graphx圖計算引擎和Neo4j圖數據庫的出現,降低瞭關系網絡的處理和應用門檻。本章使用Spark Graphx和Neo4j來處理關系網絡問題,它將帶給讀者完全不同的暢快體驗。

  任何一傢希望長久發展的公司都必須重視數據的獲取、治理和運用,通過數據挖掘、機器學習、人工智能等算法從數據中攫取新的洞察力,創新商業模式、優化業務流程或打造新的核心競爭力。本書內容覆蓋企業內大數據流轉的主要環節,並通過翔實的案例介紹常用數據挖掘、機器學習等算法及其建模過程,對企業來說是一本最佳的實踐操作指導手冊。

“大數據與機器學習:實踐方法與行業案例” 作者 陳春寶、闕子揚、鐘飛

Published in News by Awesome.

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *