網站分析數據（你真的懂數據分析嗎）|快速备案

“大數據”、“數據驅動”這些詞匯，對沉浮在互聯網的廠工們來說並不陌生，隔著屏幕，一邊在源源不斷地生產數據，一邊在緊鑼密鼓地收集解讀數據。這些數據是奇妙的，它可以讓人更加直觀、清晰地認識世界，也可以指導人更加理智地做出決策。數據分析目的有倆：挖掘問題，定位原因，對癥下藥驗證假設，提供必要的數據支持不能為瞭做數據分析而做，這是互聯網小白甚至是白銀段位產品汪也會犯的錯誤，你可能聽到過這樣的對話：產品汪：“我們想看看跟貼用戶裡有多少是高活用戶？”幾招過後，不想拉扯的數據分析師靈魂一問，“就先假設一個數，占比60%，你下一步的策略是什麼？”產品汪束手不及，瞪圓無辜的大眼，啞語。此次談判失敗。如果你隻是想要一個值（日常指標監控不算在內），可以先假定，然後看看自己是否有進一步解決問題的思路，如果沒有，說明這個問題你還沒有想清楚，就不必大費周章做數據分析瞭，請給數據分析師減負。數據流轉/分析流程：一、指標&指標體系“好數據勝過大數據”，不要用裝滿數字的高壓水槍把團隊沖垮，那什麼是好數據？9個字簡單概括：比率、比較性、簡單易懂。比率：避免“拋開劑量談毒性是耍流氓”的情況，在有一定統計學意義的統計量上看轉化率，如看頁面轉化率比單純看頁面訪問PV更有意義；看點擊率比單純看文章推薦量更有意義；比較性：數據可以橫向、縱向、環比等，能比較的數據才有意義；簡單易懂：如字。不同的商業模式有不同的數據指標，熱門的模式大致可以分為以下幾類：電子商務，如亞馬遜、淘寶；移動應用，如王者榮耀，今日頭條；媒體網站，如騰訊新聞網頁版。移動應用以新聞資訊app為例（如今日頭條、網易新聞、騰訊視頻等），簡單闡述其指標體系。宏觀指標（水池理論）我們把活躍用戶當做一個活躍的蓄水池，每天每月有新的水進來（水的來源和水質都不同，有付費發行、免費發行、回流等），也有部分水流出（流失率），沒有流出的水暫時停留在水池裡，這一出一進維持著蓄水池的水量，也就是我們常提到的DAU/WAU/MAU。流入>流出，看漲；流入<流出，看跌，道理淺顯易懂。產品發展期間，增長負責人也許會有擔憂（特別是創業團隊）：“新增能夠抵過流失嗎？”我們用水池理論來做一道數學題，已知數據：現存量用戶500w，月平均上線率60%，月回流8%，月流失率20%，日活目標增率6%，即6個月後的日活目標是709w，請計算這半年每日發行量需達到多少？（備註：以上數據僅作理論說明，不做實際參考）1月月發行=預期增長+本月流失-本月回流=500/60%*6%+500/60%*20%-500/60%*8%=150(w)1月日發行=月發行/30=150/30=5(w)假設發行投入穩定（即日發行相同，發行增率為0），如果日活要達到709w，那月回流率或月平均上線率要提高多少或者月流失率要降低多少？假設月流失率和月平均上線率均降低1%時，發行需要多提高多少才能維持目標？日常數學題，以此類推。這是一種理想狀態下的數據預估，實際情況要復雜得多，例如還包括活動營銷、版本迭代的影響等。但對這些數據瞭然於心才能避免瞎子打靶的盲目行動。幾個指標之間的關系你應該瞭解，例如：月發行=月流失+月期望增加-月回流月流失=上月月活*本月月流失率月期望增加=上月月活*（1+增長率）回流率=回流的流失用戶/日活用戶月平均上線率=（上線1天的人數*1+上線2天的人數*2+…上線30天的人數*30）/（30日獨立用戶*30）其他微觀指標：二、數據分析基於瞭解瞭以上指標體系，怎麼做數據分析？瞭解現狀關註趨勢目標驅動數據分析大致分為兩類。一種是後驗分析：無非是某個指標漲瞭/跌瞭，“某個指標”可以代入日活、留存率、流失率等。原因分析兩條路走：內部因素和外部因素，內部因素可能是版本迭代導致的功能缺失不可用、體驗變差、統計錯誤或者推薦策略修改等等；外部因素區分突發短暫的因素和長期潛移默化的因素，前者如突發新聞、節假日、發行改變、特別習俗等，後者可能是設備、網絡、國傢政策、頭部網站的變化等等。關註關鍵時間點，用排除法從廣到窄層層收網找出差異點，提出大概率事件的假設。另一種是先驗分析，如擬降低無點擊用戶占比，分析無點擊用戶的行為特征和興趣標簽，這類分析根據不同業務有不同的側重點。數據分析過程強調1個思維2個指標（敲黑板，劃重點瞭）。1. 漏鬥分析思維漏鬥思維在日常工作中很常見，運用漏鬥分析的思維，便於環環監控，查漏補缺，對癥下藥。日常流量漏鬥應用廣：推薦召回排序漏鬥：（以上數據僅做模型示意，不做實際參考）打車軟件漏鬥模型：移動頁面營銷流量漏鬥：（以上數據僅做模型示意，不做實際參考）以H5營銷活動為例，以下是漏鬥中各環節指標，逐級遞減。曝光：評估觸達多少用戶；曝光點擊率：評估物料優質程度；成功加載率：loading環節會損失多少用戶，判斷是否存在性能問題；各頁面/按鈕參與率：評估各互動環節設計是否合理，UI是否清晰明瞭等；病毒傳播系數：自傳播的可能性，綜合評估獲客成本。根據不同業務需求，以上指標還能細拆，如總訪問中關註不同渠道的流量，如區分微信、微博、端內流量，方便評估渠道質量，按需投放。2. 北鬥星指標即“在任何時候抬起頭看，他都在你前進的道路上”。北鬥星指標是讓團隊聚力，少走彎路的一個指導性指標（也是KPI完成度的依據），正因如此，制定一個正確的北鬥星指標非常關鍵，因為他回答瞭現階段最重要的問題。如某服務供應商，有一個指標高於其他指標：凈增加，這個指標有助於快速發現退訂量高的日子並尋找問題；餐飲業關註前一天人工成本占毛收入的比例，為瞭得要一個優秀的數值，你不得不推進人均消費和人力成本。產品發展的不同階段會有不同北鬥指標，但每個階段關註一個北鬥指標即可，不貪多。3. 虛擬指標虛擬1：註重PV、UV等“量級”類的指標，忽略轉化率。某圖片網站的日均訪問人數訪問次數過百萬，但同時跳出率也高達75%，實際留下消費的用戶寥寥無幾。某新聞app某頻道日均訪問十幾萬，無刷新無點擊用戶占比85%，實際有消費的用戶僅有幾萬。這種註意力轉移時常會變成寫匯報的“故意”技巧，“轉化不好量級來湊”。制定正確的數據指標，避開虛榮指標，數據指標之間的耦合現象也值得註意，例如轉化率和購買所需時間，病毒傳播系數和病毒傳播周期。虛擬2：相對值和絕對值，隻選其一。新上架的某工具類app，DAU增長500%，實質原始基數隻有20人，增長500%即增長至120人相對值和絕對值，避重就輕就是耍流氓。虛擬3：關註某指標下的全量用戶，忽略真實有意義的用戶行為。某買賣二手書app一開始關註每月賣傢人數、上傳商品數量、賣傢人均上傳商品數量，數據很漂亮；若以月為單位關註一個月內有活躍的商傢、一周內有搜索曝光次數大於3次的商品數量，就會發現趨勢並不樂觀。“有效行為”可能含義豐富，需要尋找有意義的用戶行為模式和機遇，虛擬數據的噪音會掩蓋原本你應該要面對和解決的問題。除瞭1個思維2個指標，瞭解數據瓶頸（也稱“天花板”）和同行大盤，能讓你把精力和財力花在刀刃上。如，某CEO對8%的流失率心煩意亂，和同行溝通後發現8%已經是一個較低值，他便改變瞭關註點，“流失率維持即可，精力放在其他指標”。三、數據采集常見的數據采集有以下四個渠道：行為數據（埋點）流量數據（JS采集或第三方，如Google Analytics、百度統計）業務數據（運營後臺）外部數據（第三方或爬蟲）to C的產品如騰訊新聞，產品汪最常接觸的是行為埋點數據，埋點展開說是長篇幅的技術統計學（詳見下一篇推送）；品牌推廣、H5營銷PR常關註流量數據；關註訂單成交的運營喵日常跑後臺數據；競品分析外部數據爬起來。四、數據清洗數據清洗根據不同的業務場景有不同的標準，主要是一些空值、異常值的處理，使數據得出的結論可靠可信。栗子1：取非0數據時要排除。…… where click !=0 or click not or ……栗子2：統計時長（duration）相關行為時，過高或過低的時長為異常值，假定>=10 ms 和 <=10000000 ms 的閱讀行為有效行為。select date, itemid, count(itemid) as rec, sum(isexposure) as exposure, sum(case when duration>=10 and duration<10000000 then isread else 0 end) as click, sum(case when duration>=10 and duration<10000000 then duration else 0 end)/1000 as read_time from all_user_active_info ……栗子3：記錄用戶點擊歷史時，排除停留時長<=1s的點擊。排除虛假點擊，讓記錄的用戶數據更貼近用戶的真實意圖，提高推薦策略的準確性。其他數據分析重在思維，可能有人會問“我需要學習獲取數據、分析數據的工具技能嗎”？如果你在UC、騰訊這類大廠工作，一群兢兢業業的BI工程師會將苦澀難懂的數據可視化，你隻要懂得提需求+善用“篩選”功能即可得到你想要的數據；如果你在中小公司工作，Excel要玩得溜的同時，學點SQL和Python總沒錯，不然你可能會面臨“取一個數據要排期一兩周”的尷尬。學習一些基礎的工具技能，例如在Python嘗試用pearsonr(x, y)分析各項指標的相關性，用SQL percentile(BIGINT col, p)引發對不同分位點的思考，對思維益處多多且效率提高不少（Skill：Excel->SQL->Python）。做一個數據驅動的產品汪，如獲武林秘訣。結語Accenture的首席科學傢肖爾·斯瓦米納坦說：“科學是純粹經驗主義和不帶偏見的，但是科學傢不是。科學傢是客觀和機械的，但是科學傢不是。科學是客觀和機械的，但是它同樣重視那些有創造力、直觀思考、能夠轉變觀念的科學傢。”註重數據善用數據的同時，避免唯數據論，畢竟它是驗證直覺、提高效率少走彎路的手段而已。在互聯網+時代，“你的用戶用每次點擊、瀏覽、喜歡、分享和購買都會留下一條灑滿數字面包屑的軌跡，這條軌跡從他們第一次聽說你開始，到永遠流失那天結束”。突然覺得生活在這個時代從事著互聯網工作（推薦產品+數據分析）很幸福，“熟悉的陌生人”的無聲交流，讓事情一點點變好，就暫且拋開數據泄露數據利用這種惱人的話題吧。備註：部分引用來自[美]埃裡克·萊斯編著的《精益數據分析》，進階級的數據分析推薦閱讀。本文由 @張小喵Miu 原創發佈於人人都是產品經理，未經作者許可，禁止轉載。題圖來自Unsplash，基於CC0協議。

相关文章