面試真題 | 騰訊數據分析最愛考的兩道面試題
- 2020 年 4 月 8 日
- 筆記
點擊上方「鹹魚學Python」,選擇「加為星標」
第一時間關注Python技術乾貨!

作者:騰訊數據分析師 annatx
編輯:高級農民工
今天給各位分享兩道數據分析試題,這是騰訊數據分析面試官在面試時考察候選人喜歡出的題,屬於硬性技能考察題目,特別好用。
如果你想投鵝廠的數據分析師崗位,強烈建議看看。刷題做實戰題目是王道,刷一道頂得上在網上刷百道。
以下是面試官在面試候選人時的思考。
面試都有固定的流程,通常是自我介紹,硬性技能考察,項目經歷追問和Q&A環節。
之所以把硬性技能考察緊跟自我介紹後面,是因為不管簡歷包裝的有多好,招來的小夥伴始終要能get hands dirty,如果一些必須的技能不ok,那就沒啥給機會的必要了。我們團隊這邊比較關注的還是SQL和Python技能,所以但凡學生聲稱自己熟練掌握SQL和Python的,都會詳細考察一下實際能力。所以兩道題目,一道是SQL題,一道是Python題。
SQL題目
這道題目還挺捨不得分享出來的,不過我自己用下來是真的覺得堪稱SQL試金石。不僅是校招生,就算是寫了好多年SQL的人,也不一定真的能快速想出來答案,但被告知答案了又會覺得真的其實蠻簡單的。因為題目都是我工作時候遇到覺得很有趣記錄下來的case,所以可能是百度orGoogle也搜不出來的珍藏私貨。
題目:有一張用戶簽到表【t_user_attendence】,標記每天用戶是否簽到(說明:該表包含所有用戶所有工作日的出勤記錄) ,包含三個字段:日期【fdate】,用戶id【fuser_id】,用戶當天是否簽到【fis_sign_in:0否1是】;
問題1:請計算截至當前每個用戶已經連續簽到的天數(輸出表僅包含當天簽到的所有用戶,計算其連續簽到天數)
輸出表【t_user_consecutive_days】:用戶id【fuser_id】,用戶聯繫簽到天數【fconsecutive_days】
解答邏輯非常簡單,只需要用max和datediff。實際答案就留在文末好了。
問題2:請計算每個用戶歷史以來最大的連續簽到天數(輸出表為用戶簽到表中所有出現過的用戶,計算其歷史最大連續簽到天數)
輸出表【t_user_max_days】:用戶id【fuser_id】,用戶最大連續簽到天數【fmax_days】
這個乍看不太是SQL能解決的問題,但仔細想想就有思路。我的答案可能也不是最佳答案,但暫時還沒問到過別的答案吧。
Python題目
題目:針對股票的最大回撤率指標定義,給出代碼實現思路。給定的是產品所有交易日的凈值序列,且其凈值序列已按照日期排序。
最大回撤率:在選定周期內任一歷史時點往後推,產品凈值走到最低點時的收益率回撤幅度的最大值。
追問:如何在提升計算效率?
這道題類似的題目其實在leecode也有,這個大概是變化但類似版本(可以搜leecode股票最大回報);因為團隊里處理比較多金融資產數據,這個指標是策略中最常見的指標之一,所以也是一道工作中攢下來的題目。這個指標的計算優化問題真的非常值得問,我後面會列幾個版本的代碼思路和實現代碼。
通常最簡單的計算實現,會需要O(n2)的計算複雜度;可以針對如何降低計算複雜度,專門追問。
漫談
其實這倆題目,核心考察的都不是語言能力,因為語言永遠都在更新,始終可以通過寫得多來提升熟悉度;核心考察的其實都是邏輯和算法能力,就算忘記核心函數或者語法,回歸到問題本身,有邏輯的candidate還是能給出思路和步驟,那當然如果語法和函數都非常熟悉,那就更完美了,可以馬上寫出來答案。
其他經驗
很多硬性技能考察題,核心一樣,題面可以一直換,比如:簽到可以變成用戶活躍,用戶充值次數之類的,可以換成候選人項目經歷里熟悉的context,有些候選人比較緊張,換點熟悉的場景,似乎就腦子轉的快一點。如果候選人最簡單的版本能快速給出思路,可以一層層追問,了解ta的思考過程,更全面考察邏輯能力。
參考解答
感覺要是不給參考答案的話,分享題目還是有點耍流氓的意思,就還是給幾個答案參考參考。
SQL題目:
問題1答案:
思路:先找用戶最近一次未簽到日期,再用今天減那個日期
create table t_user_consecutive_days as select fuser_id ,datediff('20200322',fdate_max) fconsecutive_days from (select fuser_id ,max(fdate) fdate_max from t_user_attendence where fis_sign_in = 0 group by fuser_id ) t1 ;
問題2答案:把用戶所有簽到記錄轉化成一條0-1字符串序列,用0做split切割,計算切出來的1序列組中的最大長度
create table t_user_max_days as select fuser_id ,max(length(cut_fsign_record)) as fmax_days (select fuser_id ,fsign_record ,cut_fsign_record from (select fuser_id ,wm_concat(fis_sign_in) fsign_record from t_user_attendence group by fuser_id ) t1 lateral view explode(split(fsign_record,'0')) t as cut_fsign_record ) t2 where cut_fsign_record<>'' group by fuser_id ;
Python題目:
最大回撤率:輸入參數都是按照日期降序排列的凈值序列
基礎實現版本:
def max_drawdown(accnavArr): mdd = 0 for i in range(0, len(accnavArr)): for j in range(i + 1, len(accnavArr)): drawdown = accnavArr[i] / accnavArr[j] - 1 if drawdown < mdd: mdd = drawdown return mdd
空間換時間實現版本:
把每個時間點計算的最大值都存到一個列表結構中,最大回撤的計算只需要再依賴這個列表進行多一次循環計算。
def maxDrawdownGainCal(accnavArr): # 默認accnavArr按日期降序排列 maxDrawdown = 10000 maxGain =0 arr_len = len(accnavArr) maxList = [0.0] * arr_len minList = [0.0] * arr_len maxList[arr_len-1] = accnavArr[arr_len-1] minList[arr_len-1] = accnavArr[arr_len-1] for i in range(arr_len-2,-1,-1): if accnavArr[i] > maxList[i+1]: maxList[i] = accnavArr[i] else: maxList[i] = maxList[i+1] if accnavArr[i] < minList[i+1]: minList[i] = accnavArr[i] else: minList[i] = minList[i+1] for i in range(0,arr_len): mdd = (accnavArr[i]/maxList[i]-1) mg = (accnavArr[i]/minList[i]-1) if mdd < maxDrawdown : maxDrawdown = mdd if mg > maxGain : maxGain = mg return maxDrawdown,maxGain
當前最優版本:
每個時間點同時更新最大值和最大回撤,兩個指標,不需要額外空間,且只做一次列表循環計算。
def maxDrawdownGainCal(accnavArr): # 默認accnavArr按日期降序排列 maxDrawdown = 10000 maxGain =0 arrLen = len(accnavArr) startMdd = accnavArr[arrLen-1] startGain = accnavArr[arrLen-1] for i in range(arrLen-2,-1,-1): if accnavArr[i] > startMdd: startMdd = accnavArr[i] mdd = (accnavArr[i]/startMdd-1) if accnavArr[i] < startGain: startGain = accnavArr[i] mg = (accnavArr[i]/startGain-1) if mdd < maxDrawdown : maxDrawdown = mdd if mg > maxGain : maxGain = mg return maxDrawdown,maxGain
Love & Share

[ 完 ]
朕已閱