­

罕見的coredump了

  • 2019 年 10 月 27 日
  • 筆記

最近,項目在越南版刪檔測試的時候,發生了罕見的coredump,簡單記一點排查日誌

 

目前的敏感詞過濾是在C層做判定的,先後經過幾個項目考驗,模組算是比較穩定了。越南版有個需求,需要將敏感詞里的空格去掉。比如敏感詞是abc,現在不能說abc了,但是玩家可以輸入“a b c”,所以需要過濾掉空格。有同事就對C層改了一下,判斷rune是32的時候,就繼續判斷後續字元,出事的程式碼大致如下:

        lua_rawgeti(L, 1, j);             
        uint32_t rune = (uint32_t)lua_tointeger(L, -1); + if (rune == 32) { + continue; + } lua_pop(L, 1); - if(node == NULL) { node = table_get(dict, rune); } else {

這裡會跳過lua_pop語句,導致之前lua_rawgeti的結果殘留在棧上。但這個缺陷不會馬上讓進程掛掉,而是將棧弄壞一點點。我們來看Lua的棧定義:

 1 /*   2 ** 'per thread' state   3 */   4 struct lua_State {   5   CommonHeader;   6   unsigned short nci;  /* number of items in 'ci' list */   7   lu_byte status;   8   StkId top;  /* first free slot in the stack */   9   global_State *l_G;  10   CallInfo *ci;  /* call info for current function */  11   const Instruction *oldpc;  /* last pc traced */  12   StkId stack_last;  /* last free slot in the stack */  13   StkId stack;  /* stack base */  14   UpVal *openupval;  /* list of open upvalues in this stack */  15   GCObject *gclist;  16   struct lua_State *twups;  /* list of threads with open upvalues */  17   struct lua_longjmp *errorJmp;  /* current error recover point */  18   CallInfo base_ci;  /* CallInfo for first level (C calling Lua) */  19   volatile lua_Hook hook;  20   ptrdiff_t errfunc;  /* current error handling function (stack index) */  21   int stacksize;  22   int basehookcount;  23   int hookcount;  24   unsigned short nny;  /* number of non-yieldable calls in stack */  25   unsigned short nCcalls;  /* number of nested C calls */  26   l_signalT hookmask;  27   lu_byte allowhook;  28 };

lua_State的stack是一個指針,指向一個動態申請的TValue指針數組。這個棧不僅是lua和C交互的時候,用於雙方交換數據;lua函數調用的時候,也會將函數參數壓棧(當然,調用關係不在這個棧上,而是通過CallInfo指針組織的雙向鏈表來記錄)Lua默認會給函數初始化20個格子,也可以通過lua_checkstack函數去增加棧的大小。L->top指向的是棧上的第一個可用空槽,L->top在正常使用的時候會小於L->ci->top,lua自帶有api_check來檢查。之前為了壓榨性能,api_check也關掉了,所以沒檢查出stack overflow。

 

當一個C函數不斷往棧上push函數,超過棧的大小後,會寫壞什麼記憶體就沒法確定了。出事的時候,寫壞的是另一個協程的stack,另一個協程正準備resume回來,但是棧上存的ci->func是TValue(正數32),不是一個函數類型,就coredump了。

 

穩妥起見,以後改C程式碼還是走一下code review吧,自己也打開api_check檢查一下。。查這個問題花了很久,還有一個原因是其他同學搞混了線上版本,我看的是有問題的版本,結果另一個分支上的是沒問題的版本,以為正式服上跑的是沒問題的版本,查了好久。。。