面試真題 | 騰訊數據分析最愛考的兩道面試題

點擊上方「鹹魚學Python」,選擇「加為星標」

第一時間關注Python技術乾貨!

作者:騰訊數據分析師 annatx

編輯:高級農民工

今天給各位分享兩道數據分析試題,這是騰訊數據分析面試官在面試時考察候選人喜歡出的題,屬於硬性技能考察題目,特別好用

如果你想投鵝廠的數據分析師崗位,強烈建議看看。刷題做實戰題目是王道,刷一道頂得上在網上刷百道。

以下是面試官在面試候選人時的思考。

面試都有固定的流程,通常是自我介紹,硬性技能考察,項目經歷追問和Q&A環節。

之所以把硬性技能考察緊跟自我介紹後面,是因為不管簡歷包裝的有多好,招來的小夥伴始終要能get hands dirty,如果一些必須的技能不ok,那就沒啥給機會的必要了。我們團隊這邊比較關注的還是SQL和Python技能,所以但凡學生聲稱自己熟練掌握SQL和Python的,都會詳細考察一下實際能力。所以兩道題目,一道是SQL題,一道是Python題。

SQL題目

這道題目還挺捨不得分享出來的,不過我自己用下來是真的覺得堪稱SQL試金石。不僅是校招生,就算是寫了好多年SQL的人,也不一定真的能快速想出來答案,但被告知答案了又會覺得真的其實蠻簡單的。因為題目都是我工作時候遇到覺得很有趣記錄下來的case,所以可能是百度orGoogle也搜不出來的珍藏私貨

題目:有一張用戶簽到表【t_user_attendence】,標記每天用戶是否簽到(說明:該表包含所有用戶所有工作日的出勤記錄) ,包含三個字段:日期【fdate】,用戶id【fuser_id】,用戶當天是否簽到【fis_sign_in:0否1是】;

問題1:請計算截至當前每個用戶已經連續簽到的天數(輸出表僅包含當天簽到的所有用戶,計算其連續簽到天數)

輸出表【t_user_consecutive_days】:用戶id【fuser_id】,用戶聯繫簽到天數【fconsecutive_days】

解答邏輯非常簡單,只需要用max和datediff。實際答案就留在文末好了。

問題2:請計算每個用戶歷史以來最大的連續簽到天數(輸出表為用戶簽到表中所有出現過的用戶,計算其歷史最大連續簽到天數)

輸出表【t_user_max_days】:用戶id【fuser_id】,用戶最大連續簽到天數【fmax_days】

這個乍看不太是SQL能解決的問題,但仔細想想就有思路。我的答案可能也不是最佳答案,但暫時還沒問到過別的答案吧。

Python題目

題目:針對股票的最大回撤率指標定義,給出代碼實現思路。給定的是產品所有交易日的凈值序列,且其凈值序列已按照日期排序。

最大回撤率:在選定周期內任一歷史時點往後推,產品凈值走到最低點時的收益率回撤幅度的最大值。

追問:如何在提升計算效率?

這道題類似的題目其實在leecode也有,這個大概是變化但類似版本(可以搜leecode股票最大回報);因為團隊里處理比較多金融資產數據,這個指標是策略中最常見的指標之一,所以也是一道工作中攢下來的題目。這個指標的計算優化問題真的非常值得問,我後面會列幾個版本的代碼思路和實現代碼。

通常最簡單的計算實現,會需要O(n2)的計算複雜度;可以針對如何降低計算複雜度,專門追問。

漫談

其實這倆題目,核心考察的都不是語言能力,因為語言永遠都在更新,始終可以通過寫得多來提升熟悉度;核心考察的其實都是邏輯和算法能力,就算忘記核心函數或者語法,回歸到問題本身,有邏輯的candidate還是能給出思路和步驟,那當然如果語法和函數都非常熟悉,那就更完美了,可以馬上寫出來答案。

其他經驗

很多硬性技能考察題,核心一樣,題面可以一直換,比如:簽到可以變成用戶活躍,用戶充值次數之類的,可以換成候選人項目經歷里熟悉的context,有些候選人比較緊張,換點熟悉的場景,似乎就腦子轉的快一點。如果候選人最簡單的版本能快速給出思路,可以一層層追問,了解ta的思考過程,更全面考察邏輯能力。

參考解答

感覺要是不給參考答案的話,分享題目還是有點耍流氓的意思,就還是給幾個答案參考參考。

SQL題目:

問題1答案:

思路:先找用戶最近一次未簽到日期,再用今天減那個日期

create table t_user_consecutive_days as  select fuser_id  ,datediff('20200322',fdate_max) fconsecutive_days  from      (select fuser_id      ,max(fdate) fdate_max      from t_user_attendence      where fis_sign_in = 0      group by fuser_id      ) t1  ;  

問題2答案:把用戶所有簽到記錄轉化成一條0-1字符串序列,用0做split切割,計算切出來的1序列組中的最大長度

create table t_user_max_days as  select fuser_id  ,max(length(cut_fsign_record)) as fmax_days  (select fuser_id  ,fsign_record  ,cut_fsign_record  from      (select fuser_id      ,wm_concat(fis_sign_in) fsign_record      from t_user_attendence      group by fuser_id      ) t1  lateral view explode(split(fsign_record,'0')) t as cut_fsign_record  ) t2  where cut_fsign_record<>''  group by fuser_id  ;  

Python題目:

最大回撤率:輸入參數都是按照日期降序排列的凈值序列

基礎實現版本

def max_drawdown(accnavArr):  	mdd = 0  	for i in range(0, len(accnavArr)):  		for j in range(i + 1, len(accnavArr)):  			drawdown = accnavArr[i] / accnavArr[j] - 1  			if drawdown < mdd:  				mdd = drawdown  	return mdd

空間換時間實現版本:

把每個時間點計算的最大值都存到一個列表結構中,最大回撤的計算只需要再依賴這個列表進行多一次循環計算。

def maxDrawdownGainCal(accnavArr):      # 默認accnavArr按日期降序排列  	maxDrawdown = 10000  	maxGain =0  	arr_len = len(accnavArr)  	maxList = [0.0] * arr_len  	minList = [0.0] * arr_len  	maxList[arr_len-1] = accnavArr[arr_len-1]  	minList[arr_len-1] = accnavArr[arr_len-1]  	for i in range(arr_len-2,-1,-1):  		if accnavArr[i] > maxList[i+1]:  			maxList[i] = accnavArr[i]  		else:  			maxList[i] = maxList[i+1]  		if accnavArr[i] < minList[i+1]:  			minList[i] = accnavArr[i]  		else:  			minList[i] = minList[i+1]  	for i in range(0,arr_len):  		mdd = (accnavArr[i]/maxList[i]-1)  		mg = (accnavArr[i]/minList[i]-1)  		if mdd < maxDrawdown : maxDrawdown = mdd  		if mg > maxGain : maxGain = mg  	return maxDrawdown,maxGain

當前最優版本:

每個時間點同時更新最大值和最大回撤,兩個指標,不需要額外空間,且只做一次列表循環計算。

def maxDrawdownGainCal(accnavArr):      # 默認accnavArr按日期降序排列      maxDrawdown = 10000      maxGain =0      arrLen = len(accnavArr)      startMdd = accnavArr[arrLen-1]      startGain = accnavArr[arrLen-1]      for i in range(arrLen-2,-1,-1):          if accnavArr[i] > startMdd:              startMdd = accnavArr[i]          mdd = (accnavArr[i]/startMdd-1)          if accnavArr[i] < startGain:              startGain = accnavArr[i]          mg = (accnavArr[i]/startGain-1)          if mdd < maxDrawdown : maxDrawdown = mdd          if mg > maxGain : maxGain = mg      return maxDrawdown,maxGain  

Love & Share

[ 完 ]

朕已閱