決戰大數據
來源:AG环亚集团 政務網 更新時間:2017-01-22


用數據找機會——《決戰大數據》精粹

8小時前來源:ImportNew


《決戰大數據:駕馭未來商業的利器》是我在兩年前接觸到的第一本關於大數據的書籍,由阿裡巴巴集團副總裁車品覺所著。此書不是講具體的大數據處理技術,而是從一個大數據運營踐行者的角度來講大數據的本質、數據處理的核心思想以及阿裡巴巴數據運營的“內外三板斧”。文章並非枯燥的學術性論文,作者在文中加入很多工作小案例對觀點進行引出、闡述或佐證,過渡自然,即使讀者毫無大數據運營經驗,亦能輕松把握關鍵思想。本文將對書中的關鍵思想進行提取,刪繁就簡,以便讀者以最快最方便的途徑獲取書中的精華。


第一部分 從數據化運營到運營數據
大數據,為什麼很多人只會談,不會做

現在網絡上很多人都在談大數據,但是那些所謂的“大數據專家”只會談,不會做,因為他們根本就沒有做過。目前,在大數據方面,無法深入應用的原因在於,從收集到使用的大數據價值鏈出現了問題。只有先數據化運營,然後才能運營數據。而現在的情況是,用數據的人不知道大數據從哪裡來,做數據的人不知道大數據如何使用。

收集數據的人並不知道未來使用數據的人要做什麼,這是目前大數據的一大關鍵命門。此外,使用數據建模的人也有可能不清楚數據是如何獲取的。舉個例子,比如我在搜索引擎裡發現某個地方搜索“感冒藥”的頻率非常高,於是我就斷定這個地方可能出現了流行性感冒。然而這個數據是從何而來的呢?我完全不知道搜索這個詞的人是誰,提供數據的人也沒有必要告訴我數據的來源和質量。當創建模型的人可能不知道模型的效果如何,導致使用模型的人也不知道該怎麼去反饋使用的結果。這樣一來,信息的不對稱會原來越嚴重。這正是體現了大數據實踐過程中非常嚴重的斷層問題。

數據化運營就是用數據去解決問題,但是如果我們用數據去解決更多的問題或者提前發現問題,就要運營數據。要使大數據產生真正的商業價值,我們關注的內容並非僅僅4個V,而應該將焦點放在如何真正讓數據落地之上.

大數據的本質就是還原用戶的真實需求

在思考數據的價值時,可以從三個維度來考慮:
你是否可以清楚地識別(Identity)用戶的身份?
你能否搞清楚收集的數據對你的價值(Value)是什麼?
收集數據時的場景(Situation)是什麼?

首先來說識別。現在很多人同時擁有手機、PC和平板等多個設備,這個人每天都登錄你的網站。這種情況下你能否知道是同一個用戶?現在分辨用戶並非難事,但是還有一些情況需要考慮,比如你會將手機借給別人用嗎?是否知道用戶是誰,決定了企業數據收集行為的意義大小。

數據收集的價值包含兩個維度:
企業價值:你不會將用戶的所有行為都記錄下來,而是記錄對企業自身有幫助的數據。數據收集可以實現企業對資源的合理分配。
客戶價值:數據如何幫助企業為客戶提供更好的服務。數據收集可以實現顧客體驗的提升

當我們談大數據價值的時候,第一點要注意的就是角色不一樣,對於數據價值的看法也不同,所以在衡量價值的時候要考慮到受眾和給予者這兩個對立面的不同看法。以電子商務推薦系統為例,從企業考核的角度來說,他們想要的是如何讓用戶跟多地點擊自己的產品,而對於消費者來說,他們想的卻是有一個很想買的東西能不能快速買得到。

在准確識別和衡量了數據價值之後,我們再看一下數據收集的場景。大量的碎片化數據是噪音,讓事實串聯起來的行為變得非常困難,並且當我們把這些枯燥的數據串聯起來的時候,就一定能代表事實嗎?


早上你在路上看到一個人穿了件很好看的T恤,你心動了,到公司後馬上搜索T恤,然後電商網站給你推薦了10W個相關商品。當你猶豫怎麼挑選的時候突然要開會。會議中無聊你打開手機應用,繼續搜索T恤,但是依然沒有找到那件T恤。最後,手機彈出一個手機促銷廣告,你發現了一款價格便宜的品牌手機,你毫不猶豫買下了。

一家公司到底有多大的能力,才能還原用戶所處的場景呢?

當你搜索T恤時,跟電商的第一個接觸點出現,電商還原的場景是“你搜索了T恤,搜出10W個結果,但是你一個都沒點擊進入”。電商完全不知道你不點擊的原因是你要開會。會議中你打開手機應用再次搜索T恤,有了第二次接觸,但是你為什麼最後卻買了一部手機?有誰知道你為什麼這麼選擇?最後你買手機選擇了上海賣家,事實上你只是去過上海出差幾個月,現在卻在杭州。

如你看到的,在本應有那麼多連接的數據裡面,在購買T恤的案例中卻沒有了任何連接,那麼企業該如何實現還原呢?每天都有大量的碎片化數據產生,那麼這種狀態下分析數據能有多可靠?所以說,企業在手機數據的時候,一定要明確自己是否有能力去收集用戶在你的網站中發生的所有行為。

正如前面分析的,數據的價值必須來自於場景。

“活”的數據才是大數據

“死”數據就是單純存在數據庫中,無法進行分析和使用,並不能產生價值的數據。大數據的真正價值就是將數據用於形成主動收集數據的良性循環中,以帶動更多的數據進入這個自循環中,並應用於各個行業。比如很多網站的推薦系統,不管是音樂、視頻還是商品,都可以讓用戶來選擇“喜歡”或“不喜歡”,這樣一來企業就可以通過用戶的選擇基於後台算法為用戶重新推薦。多樣的自循環方式打開了大數據之門,而關鍵就是從解決問題出發。在數據的 自循環中,有兩個核心關鍵點:
“活”做數據:就是要跳出既定思維的框架,從相關聯的行業和業務中去收集能夠為現在所用的數據。
“活”看數據指標,動態使用數據:收集到的數據,必須要用場景去驗證,靈活使用數據。

“活”用數據,就是看你能否看出這個數據本身的局限是什麼。一方面,是我們的數據為用戶體驗改善了什麼;另一方面,企業是使用數據時,對活數據的運用解決了什麼問題或者開創了什麼機會。要牢記,活用數據很重要。

無線數據,大數據的巔峰者

現在移動互聯網的主流是APP,APP數據收集的方式包括兩種:
手機用戶聯網時請求服務器的記錄
將用戶的行為數據記錄下來之後,適時地傳給網站

但不管是什麼樣的收集方式,無線數據的最終表現是在沒有帳戶體系的情況下,和PC的用戶行為完全沒有辦法進行關聯,這也以為著用戶的數據出現了斷層。

為此,我的看法是,保證PC和無線兩份數據的完整,通過用戶體系將兩份數據關聯起來,就可以在分析的時候用彼此的融合來還原用戶行為。
首先,需要經無線數據單獨保存起來,不能將其混入PC數據中。對於不需要還原用戶行為的數據,比如頁面整體點擊率、用戶訪問時長等基於應用本身的數據就可以用無線數據來分析。
其次,由於PC和無線數據無關系,因此需要一套賬號體系來使兩者發生關系。

數據分類與數據價值,什麼才是你的核心數據

在大數據時代,首先要做的是收集大量數據,但更重要的是對數據進行分類、存放和管理。

從數據分類的角度來看,可以分成以下4類:
按照是否可再生的標准來看,可分為不可再生數據和可再生數據。不可再生數據通常就是最原始的數據,比如用戶訪問網站時如果沒有被記錄下來,就無法還原了。這類數據必須有完善的保護措施和權限設置。可再生數據就是可通過其他數據生成的數據。
按照數據所處的存儲層次來看,可分為基礎層、中間層和應用層。基礎層與原始數據一致,避免失真;中間層是基於基礎層加工的數據,也被認為是數據倉庫層,會根據不同的業務需求進行存放;應用層則是針對具體數據問題的應用。
按照數據業務歸屬來看,可分為各個數據主體,如交易類數據、會員類數據和日志類數據等。
按照是否為隱私來區分,可分為隱私數據和非隱私數據。

數據的5大價值:
識別和串聯價值:在大數據時代,越能夠還原用戶真實身份和真實行為的數據,就越有價值。
描述價值:在負責的數據中抽像出核心點。
時間價值:考慮了時間的維度後,數據會產生更大的價值,對於時間的分析,能夠更好的歸納出用戶對於某個場景的偏好,對用戶的推薦也更加精准。
預測價值
產出數據的價值:對部分數據整合之後產生新價值

數據的盲點,負面數據的力量

如果數據存在盲點,核心數據就無法輕易顯現出來。盲點可以分為兩類:一類是物理盲點,一類是邏輯盲點。
物理盲點:指數據庫中不存在這樣的數據(未收集)
邏輯盲點:有數據但未很好地發掘出來

對於物理盲點,如果出現在手機客戶端問題就非常大,一是無線終端的數據手機技術不是很成熟,二是彌補受限,比如發布新版本流程耗時長、用戶安裝問題等。在邏輯盲點中,最大的盲點就是將PC數據和無線終端數據混著看。

也許對面對海量數據,我們通常只將焦點放在正面數據上,而忽略掉負面數據。比如公司每個月有10億的交易量,雖然額度已經很大了,但你是否分析過為什麼還有2億可能的交易量沒有做成?因為很多人看了不買,為什麼不買?通過這些“負能量”數據,你其實很可能發掘出非常有價值的平台交易增長點。
第二部分 阿裡巴巴的大數據秘密
混、通、曬,阿裡巴巴數據化運營的內三板斧

數據化運營首先要從“人”做起,阿裡巴巴數據化運營的內功就是利用好“混、通、曬”三板斧。

現在很多數據分析師缺乏商業意識,往往會導致分析師不知道該用什麼樣的邏輯去分析數據,公司決策層也得不到任何有價值的參考意見。那麼數據分析師要擁有商業敏感的話,就要靠“混”,就是要常跟業務部門混在一起,了解業務部門在做什麼,才有可能服務於他們。
 當你和業務“混”熟後,看到某些數據你就會明白它和商業決策有無關系及重要性。堅持帶著業務問題來觀察數據或者帶著數據來觀察業務,兼備二者的敏感,就是做到了“通”。“通”有兩種場景。如現在有一個商業場景和一堆數據,這兩者產生關系時,就是商業模式和數據彼此的“通”。因外一種更深入的就是公司組織中各部門的數據交叉,比如統一各部門數據標准和接口等。

“曬是一種在“混”和“通”的基礎上產生出來的最終數據表現,通過業務和數據的結合,形成競爭力。

存、管、用,阿裡巴巴運營數據的外三板斧

2011年開始,阿裡巴巴開始從數據化運營想運營數據發展。

“存”就是把數據收集起來。關於數據收集,最重要的不是我們收集了什麼數據,而是要思考這些數據如何使用以及到底能起到什麼作用。收集數據不是目的,產生價值才是最終目標。

“管”就是對存儲的數據進行管理。海量數據存儲的代價是巨大的,需要考慮哪些數據可以放冷庫,哪些數據需要先備份,是集中管理數據還是分散運作,是封閉保密還是開放等等問題,

“用”就是用數據解決問題。在“用”的問題上,數據分裂和重組,都能做到顛覆性創新。比如用戶的生理性別是決策的重要依據,而現在可以從購物屬性上變成“早男晚女”,這種改變並不違背運營數據的原則。

大數據,未來商業的利器

今天,我們正處於決策成本產生巨變的爆發點,過去無法獲取的數據如今唾手可得,而當有些表面上毫不相關的數據關聯起來時居然產生了新的商業價值。更重要的是,過去我們更多地是帶著問題去尋找能夠驗證自己觀點的數據,如今我們卻可以用數據去預測未來可能出現的問題。海量數據使人的智慧得到更大的發揮,並變得更加規模化。

假定數據是髒的。美國一家公司專注於與地理位置相關的數據收集、整理和查詢服務,它對於所收集來的數據會提供質量評分以反映數據的可信度,而且會對數據處理的每個階段所用的算法進行評分以反映質量水平。這是大數據時代非常重要的一個趨勢。

學會淡化數據。數據是有優先級的,有些是特別核心,而有些是缺失了也無關緊要的,我們要學會認真盤點那些最有價值的數據。

數據的標簽化管理。數據的標簽屬性是人類經驗判斷的依據,是數據後的數據。這是個非常重要的趨勢,在運營數據時,應該找出一些屬性進行歸類,然後慢慢考慮如何提煉,這對於未來非常重要。

數據與數據的連接。大數據最重要的是數據與數據之間的關系,而不是數據本身。這就是知識圖譜。