第46篇-signature_handler與result_handler
- 2021 年 12 月 17 日
- 筆記
在之前介紹為native方法設置解釋執行的入口時介紹過,當Method::native_function為空時會調用InterpreterRuntime::prepare_native_call()函數,這個函數不但會查找本地函數,而且還會確保Method::signature_handler也完成了設置。這一篇將詳細介紹signature_handler的查找設置過程。
1、signature_handler
Method實例的第2個附加slot的signature_handler指向的常式用來消除Java解釋器棧和C/C++棧調用約定的不同,將位於解析器棧中的參數適配到本地函數使用的C棧。
在調用本地函數時,要確保signature handler被安裝,之前介紹過,如果signature_handler沒有安裝,那麼InterpreterRuntime::prepare_native_call()函數通過調用SignatureHandlerLibrary::add()函數來安裝。add()函數的實現如下:
源程式碼位置:openjdk/hotspot/src/share/vm/interpreter/interpreterRuntime.cpp // 根據方法簽名解析方法參數的解析器,當方法參數大小小於Fingerprinter::max_size_of_parameters // 時可以生成並使用根據方法簽名訂製的快速的解析器,否則使用通用的相對較慢的解析器。 void SignatureHandlerLibrary::add(methodHandle method) { // 只有在signature_handler的值為NULL時才會執行如下邏輯,否則不做任何操作 if (method->signature_handler() == NULL) { int handler_index = -1; // UseFastSignatureHandlers的值默認為true // Fingerprinter::max_size_of_parameters的值為13,也就是13個slot if (UseFastSignatureHandlers && method->size_of_parameters() <= Fingerprinter::max_size_of_parameters) { MutexLocker mu(SignatureHandlerLibrary_lock); // 確保使用到的相關變數都已經初始化完成 initialize(); // lookup method signature's fingerprint // 讀出Method::_constMethod::_fingerprinter的值,也就是 // 根據方法簽名得到對應的指紋值,然後在_fingerprints數組中查找到 // 句柄下標索引,由於句柄存儲在_handlers數組中,所以可以根據這個下標 // 索引從_handlers數組中獲取 uint64_t fingerprint = Fingerprinter(method).fingerprint(); handler_index = _fingerprints->find(fingerprint); // 如果handler_index小於0,則說明沒有這個方法簽名對應的signature_handler,需要創建一個新的 // signature_handler if (handler_index < 0) { ResourceMark rm; ptrdiff_t align_offset = (address)round_to((intptr_t)_buffer, CodeEntryAlignment) - (address)_buffer; CodeBuffer buffer( (address)(_buffer + align_offset), SignatureHandlerLibrary::buffer_size - align_offset ); // 生成signature_handler,其實就是生成一段常式,這段常式可消除Java解釋器棧 // 和C/C++棧調用約定的不同,將位於解析器棧中的參數適配到本地函數使用的C棧 InterpreterRuntime::SignatureHandlerGenerator tmp = InterpreterRuntime::SignatureHandlerGenerator(method, &buffer); tmp.generate(fingerprint); // signature_handler對應的常式臨時保存在了CodeBuffer中,調用set_handler保存到BufferBlob中, // 這個BufferBlob中的記憶體是從CodeCache中分配出來的,解釋執行所需要的所有常式基本都保存在CodeCache中 address handler = set_handler(&buffer); if (handler == NULL) { // 使用普通的、相對較慢的解釋器 } else { // 向_fingerprints和_handlers數組中添加方法簽名和signature_handler,這樣下次就可以 // 根據方法簽名快速定位對應的signature_handler _fingerprints->append(fingerprint); _handlers->append(handler); handler_index = _fingerprints->length() - 1; } } // 結束 if (handler_index < 0) if (handler_index < 0) { // 使用通用的相對較慢的解析器 address tmp = Interpreter::slow_signature_handler(); method->set_signature_handler(tmp); } else { // 使用快速的解析器 address tmp = _handlers->at(handler_index); method->set_signature_handler(tmp); } } else { // 沒有快速的解釋器,只能使用相對較慢的普通解釋器 method->set_signature_handler(Interpreter::slow_signature_handler()); } } }
對於參數不超過13個slot大小(int、byte、對象地址等佔用一個slot,而double和long佔用2個slot)的native方法來說,signature_handler會走快速路徑。就是根據方法簽名字元串得到一個64位的整數方法指紋(Method Fingerprint)值,後續signature_handler將不需要每次都解析native方法簽名字元串得到參數個數和參數類型,而是直接用方法指紋值。這個方法指紋值的格式如下圖所示。
每個方法指紋值都會存儲在元素類型為uint64_t的數組中,所以方法指紋值不能超過64位大小,另外加上還需要存儲結果類型、是否為靜態方法等資訊,所以能表示方法參數類型的參數存儲區只有52位大小,所以才會要求方法參數大小不超過13個slot的大小(每個參數的類型存儲需要佔用4位)。
在SignatureHandlerLibrary::add()函數中使用了_fingerprints和_handlers來保存方法指紋值,這兩個變數是靜態的,所以說,如果兩個方法的指紋值相同,則可以重用快速解釋器。
在之前介紹過為native方法生成解釋執行的入口時,會在Method::native_funciton執行之前調用Method::signature_handler,而在調用Method::signature_handler之前會根據方法要求的參數大小從native棧幀中開闢對應的存儲空間,棧的狀態如下圖所示。
其中最下面的param n … param 1中會壓入調用C/C++實現的本地函數需要的參數,不過Java方法的解釋執行需要將參數從左向右入棧,所以我們能夠看到上圖中方法的局部變數表中實參的順序為param 1… param n,但是本地函數根據調用約定,其參數需要從右到左入棧,這就要求最後一個參數最先入棧(注意,C/C++函數只有在參數過多的情況下才會藉助棧來傳遞參數)。
(1)快速解釋器
調用InterpreterRuntime::SignatureHandlerGenerator::generate()函數生成快速解釋器,函數的實現如下:
void InterpreterRuntime::SignatureHandlerGenerator::generate(uint64_t fingerprint) { // 處理參數 iterate(fingerprint); // 查找並返回result_handler BasicType bt = method()->result_type(); address adr = Interpreter::result_handler(bt); __ lea(rax, ExternalAddress(adr)); __ ret(0); __ flush(); }
這個函數在生成signature_handler時還會生成result_handler,這個result_handler會處理本地函數調用後的返回值,之前在介紹為native方法設置解釋執行的入口時介紹過,result_handler對native_function執行的結果進行處理的具體邏輯。
處理參數iterate()函數的實現如下:
void iterate( uint64_t fingerprint ) { if (!is_static()) { // 當為實例方法時,需要傳遞receiver,也就是this參數 pass_object(); _jni_offset++; _offset++; } // fingerprint中包含有函數調用參數及返回類型等相關資訊 SignatureIterator::iterate_parameters( fingerprint ); }
調用pass_object()函數為本地函數傳遞this參數。調用SignatureIterator::iterate_parameters()函數根據Java方法簽名向C/C++函數傳遞參數。調用的SignatureIterator::iterate_parameters()函數的實現如下:
void SignatureIterator::iterate_parameters( uint64_t fingerprint ) { uint64_t saved_fingerprint = fingerprint; // 當傳遞的參數太多時就無法使用方法指紋值來快速處理,只能通過遍歷Java方法簽名來處理 if ( fingerprint == UCONST64(-1) ) { // 檢查處理參數太多的情況 SignatureIterator::iterate_parameters(); return; } _parameter_index = 0; // static_feature_size + result_feature_size的值為5 fingerprint = fingerprint >> (static_feature_size + result_feature_size); while ( 1 ) { switch ( fingerprint & parameter_feature_mask ) { case bool_parm: do_bool(); _parameter_index += T_BOOLEAN_size; break; case byte_parm: do_byte(); _parameter_index += T_BYTE_size; break; case char_parm: do_char(); _parameter_index += T_CHAR_size; break; case short_parm: do_short(); _parameter_index += T_SHORT_size; break; case int_parm: do_int(); _parameter_index += T_INT_size; break; case obj_parm: do_object(0, 0); _parameter_index += T_OBJECT_size; break; case long_parm: do_long(); _parameter_index += T_LONG_size; break; case float_parm: do_float(); _parameter_index += T_FLOAT_size; break; case double_parm: do_double(); _parameter_index += T_DOUBLE_size; break; case done_parm: return; break; default: ShouldNotReachHere(); break; } // parameter_feature_size的值為4 fingerprint >>= parameter_feature_size; } _parameter_index = 0; }
調用的do_float()、do_object()等函數的實現如下:
void do_bool () { pass_int(); _jni_offset++; _offset++; } void do_char () { pass_int(); _jni_offset++; _offset++; } void do_float () { pass_float(); _jni_offset++; _offset++; } void do_double() { pass_double(); _jni_offset++; _offset += 2; } void do_byte () { pass_int(); _jni_offset++; _offset++; } void do_short () { pass_int(); _jni_offset++; _offset++; } void do_int () { pass_int(); _jni_offset++; _offset++; } void do_long () { pass_long(); _jni_offset++; _offset += 2; } void do_object(int begin, int end) { pass_object(); _jni_offset++; _offset++; } void do_array (int begin, int end) { pass_object(); _jni_offset++; _offset++; }
其中的_jni_offset表示參數對於本地函數的偏移量,而_offset表示參數對於Java方法的偏移量。對於Java方法來說,一個long或double會佔用2個slot,而在64位下,本地函數只需要一個slot即可。另外,如果是靜態方法,由於有JNIEnv*和jclass,對於實例方法有JNIEnv*,所以_jni_offset還需要加上2或1。
調用的pass_int()、pass_double()和pass_object()等函數的實現如下:
void InterpreterRuntime::SignatureHandlerGenerator::pass_int() { const Address src(from(), Interpreter::local_offset_in_bytes(offset())); switch (_num_int_args) { // 當為靜態方法時,_num_int_args的值為1,否則為0 case 0: __ movl(c_rarg1, src); _num_int_args++; break; case 1: __ movl(c_rarg2, src); _num_int_args++; break; case 2: __ movl(c_rarg3, src); _num_int_args++; break; case 3: __ movl(c_rarg4, src); _num_int_args++; break; case 4: __ movl(c_rarg5, src); _num_int_args++; break; default: // 當傳遞的整數類型參數多於5個時,多出來的只能通過棧來傳遞 __ movl(rax, src); __ movl(Address(to(), _stack_offset), rax); // 調用to()函數返回rsp _stack_offset += wordSize; break; } } void InterpreterRuntime::SignatureHandlerGenerator::pass_double() { const Address src(from(), Interpreter::local_offset_in_bytes(offset() + 1)); if (_num_fp_args < Argument::n_float_register_parameters_c) { __ movdbl(as_XMMRegister(_num_fp_args++), src); } else { __ movptr(rax, src); __ movptr(Address(to(), _stack_offset), rax); _stack_offset += wordSize; } } // 在傳遞對象地址時,只需要使用整數類型的slot存儲地址即可 void InterpreterRuntime::SignatureHandlerGenerator::pass_object() { const Address src(from(), Interpreter::local_offset_in_bytes(offset())); switch (_num_int_args) { case 0: assert(offset() == 0, "argument register 1 can only be (non-null) receiver"); __ lea(c_rarg1, src); _num_int_args++; break; case 1: __ lea(rax, src); __ xorl(c_rarg2, c_rarg2); __ cmpptr(src, 0); __ cmov(Assembler::notEqual, c_rarg2, rax); _num_int_args++; break; case 2: __ lea(rax, src); __ xorl(c_rarg3, c_rarg3); __ cmpptr(src, 0); __ cmov(Assembler::notEqual, c_rarg3, rax); _num_int_args++; break; case 3: __ lea(rax, src); __ xorl(c_rarg4, c_rarg4); __ cmpptr(src, 0); __ cmov(Assembler::notEqual, c_rarg4, rax); _num_int_args++; break; case 4: __ lea(rax, src); __ xorl(c_rarg5, c_rarg5); __ cmpptr(src, 0); __ cmov(Assembler::notEqual, c_rarg5, rax); _num_int_args++; break; default: __ lea(rax, src); __ xorl(temp(), temp()); __ cmpptr(src, 0); // 如果傳遞的對象地址不為0,則將rax中的值存儲到temp()中 __ cmov(Assembler::notEqual, temp(), rax); // 將temp()中的值存儲到棧幀中 __ movptr(Address(to(), _stack_offset), temp()); _stack_offset += wordSize; break; } }
我們需要注意,因為要調用的本地函數是C/C++函數,所以需要遵守C/C++函數的調用約定,如果是整數或對象地址,則可以放到6個整數類型的暫存器中。靜態方法的JNI*和jclass參數需要通過c_rarg0和c_rarg1來傳遞,所以native方法的參數中的非浮點數類型只能使用c_rarg2、c_rarg3、c_rarg4和c_rarg5這幾個暫存器;如果是實例方法,則c_rarg0需要傳遞JNI*,然後就是c_rarg1傳遞receiver。當整數或對象多於6個時,要將剩下的參數從右向左壓入棧內。
下面看2個具體的小實例。
為java.lang.Object.registerNatives()方法生成的signature_handler與result_handler的彙編程式碼如下:(為HotSpot VM添加選項 -XX:+PrintSignatureHandlers)
argument handler #0 for: static java.lang.Object.registerNatives()V (fingerprint = 349, 11 bytes generated) // 根據方法的返回類型獲取到對應的result_handler常式的地址並保存到%rax中 // movabs的源操作數只能是立即數或標號(本質還是立即數),目的操作數是暫存器 0x00007f386911c420: movabs $0x7f386900ecd8,%rax 0x00007f386911c42a: retq --- associated result handler --- // 由於registerNatives()方法不需要任何返回值,所以沒有任何執行邏輯 // ret指令用於從子函數中返回。X86架構的Linux中是將函數的返回值設置到eax寄 // 存器並返回的,設置的工作不是由ret來做,要自己做 0x00007f386900ecd8: retq
由於registerNatives()方法沒有任何參數,所以不需要對參數進行處理。至於JNIEnv*和jclass參數,在之前介紹為native方法設置解釋執行入口時詳細介紹過。
再舉個例子,如下:
private native void writeBytes(byte b[], int off, int len, boolean append) throws IOException;
生成的彙編如下:
argument handler #56 for: receiver java.io.FileOutputStream.writeBytes([BIIZ)V (fingerprint = 21146428, 44 bytes generated) // Java方法的第1個參數this是本地方法的第2個參數,所以要根據調用約定存儲在%rsi中 0x00007fbfe4067a5a: lea (%r14),%rsi // 將Java方法的第2個參數b存儲到%rax中 0x00007fbfe4067a5d: lea -0x8(%r14),%rax 0x00007fbfe4067a61: xor %edx,%edx // 清空%edx // cmp是比較指令,cmp的功能相當於減法指令,只是不保存結果 0x00007fbfe4067a63: cmpq $0x0,-0x8(%r14) // cmovne不相等時(也就是-0x8(%r14)中的值不為0時),將%rax中的值移動到%rdx中, // 也就是Java方法的第2個參數b是本地方法的第3個參數,根據調用約定存儲在%rdx中 0x00007fbfe4067a6b: cmovne %rax,%rdx // 傳遞Java方法的off參數 0x00007fbfe4067a6f: mov -0x10(%r14),%ecx // 傳遞Java方法的len參數 0x00007fbfe4067a73: mov -0x18(%r14),%r8d // 傳遞Java訪求的append參數 0x00007fbfe4067a77: mov -0x20(%r14),%r9d 0x00007fbfe4067a7b: movabs $0x7fbfe3f59cd8,%rax 0x00007fbfe4067a85: retq --- associated result handler --- // 當類型為int、long、void、float與double時,只執行retq // 即可,詳見下面的result handler 0x00007fbfe3f59cd8: retq
如上函數的參數不多於6個,所以正好能使用6個整數暫存器來傳參。
C/C++中的參數放入的順序如下:
- 第一個參數:%rdi c_rarg0
- 第二個參數:%rsi c_rarg1
- 第三個參數:%rdx c_rarg2
- 第四個參數:%rcx c_rarg3
- 第五個參數:%r8 c_rarg4
- 第六個參數:%r9 c_rarg5
第1個參數為JNIEnv*,這在之前介紹為native方法設置解釋執行的入口時介紹過,從JavaThread::jni_environment中獲取JNIEnv實例的地址並保存到%rdi中。
(2)普通的解釋器
將普通的解釋器生成的常式保存到AbstractInterpreter::_slow_signature_handler中,所以在SignatureHandlerLibrary::add()函數中可直接能這個欄位中獲取常式地址。在HotSpot VM啟動時會調用如下函數:
void AbstractInterpreterGenerator::generate_all() { { CodeletMark cm(_masm, "slow signature handler"); Interpreter::_slow_signature_handler = generate_slow_signature_handler(); } }
調用AbstractInterpreterGenerator::generate_slow_signature_handler()函數生成的彙編程式碼如下:
// rbx: method // r14: pointer to locals // %rcx指向了棧頂,其中的棧頂值是第1個需要通過棧來給本地函數傳遞的參數 0x00007fffe1005400: mov %rsp,%rcx // 為調用準備c_rarg3 // 0x70=14*wordSize,其中wordSize=8,這裡又從native棧幀上開闢了 // 14個slot,其中8個用來存儲浮點數,5個用來存儲整數,1個用來指示8個slot // 中,哪些存儲了需要傳遞的方法參數,也就是需要傳遞給本地函數的浮點數 0x00007fffe1005403: sub $0x70,%rsp // 調用call_VM()函數生成的常式,這個常式調用InterpreterRuntime::slow_signature_handler()函數 0x00007fffe1005407: callq 0x00007fffe1005411 0x00007fffe100540c: jmpq 0x00007fffe1005492 0x00007fffe1005411: mov %r14,%rdx // 為調用準備參數c_rarg2 0x00007fffe1005414: mov %rbx,%rsi // 為調用準備參數c_rarg1 0x00007fffe1005417: lea 0x8(%rsp),%rax 0x00007fffe100541c: mov %r13,-0x38(%rbp) 0x00007fffe1005420: mov %r15,%rdi // 為調用準備參數c_rarg0 // 相關資訊保存到執行緒中 0x00007fffe1005423: mov %rbp,0x200(%r15) 0x00007fffe100542a: mov %rax,0x1f0(%r15) // 如下彙編對函數進行調用,如果記憶體沒有對齊,則需要對齊處理後調用 0x00007fffe1005431: test $0xf,%esp 0x00007fffe1005437: je 0x00007fffe100544f 0x00007fffe100543d: sub $0x8,%rsp 0x00007fffe1005441: callq 0x00007ffff66aeed2 0x00007fffe1005446: add $0x8,%rsp 0x00007fffe100544a: jmpq 0x00007fffe1005454 0x00007fffe100544f: callq 0x00007ffff66aeed2 // 將執行緒中保存的相關資訊重置 0x00007fffe1005454: movabs $0x0,%r10 0x00007fffe100545e: mov %r10,0x1f0(%r15) 0x00007fffe1005465: movabs $0x0,%r10 0x00007fffe100546f: mov %r10,0x200(%r15) 0x00007fffe1005476: cmpq $0x0,0x8(%r15) 0x00007fffe100547e: je 0x00007fffe1005489 0x00007fffe1005484: jmpq 0x00007fffe1000420 0x00007fffe1005489: mov -0x38(%rbp),%r13 0x00007fffe100548d: mov -0x30(%rbp),%r14 0x00007fffe1005491: retq // 結束call_VM()函數的調用 // rax: result handler // Do FP first so we can use c_rarg3 as temp // 0x28等於5*wordSize 0x00007fffe1005492: mov 0x28(%rsp),%ecx // float/double identifiers
在執行InterpreterRuntime::slow_signature_handler()函數之前的棧狀態如下圖所示。
調用的InterpreterRuntime::slow_signature_handler()函數的實現如下:
IRT_ENTRY(address,InterpreterRuntime::slow_signature_handler( JavaThread* thread, Method* method, intptr_t* from, intptr_t* to )) methodHandle m(thread, (Method*)method); // 處理方法參數 SlowSignatureHandler(m, (address)from, to + 1).iterate(UCONST64(-1)); // 返回result_handler return Interpreter::result_handler(m->result_type()); IRT_END
其中from與to分別為
r14: pointer to locals %rcx/c_rarg3: first stack arg - wordSize
調用的SlowSignatureHandler的構造函數如下:
SlowSignatureHandler(methodHandle method, address from, intptr_t* to) : NativeSignatureIterator(method) { _from = from; _to = to; _int_args = to - (method->is_static() ? 14 : 15); _fp_args = to - 9; _fp_identifiers = to - 10; *(int*) _fp_identifiers = 0; _num_int_args = (method->is_static() ? 1 : 0); _num_fp_args = 0; } NativeSignatureIterator(methodHandle method) : SignatureIterator(method->signature()) { _method = method; _offset = 0; _jni_offset = 0; const int JNIEnv_words = 1; const int mirror_words = 1; // 如果為靜態方法,則_prepended的值為2(JNI和mirror),否則值為1(JNI) _prepended = !is_static() ? JNIEnv_words : JNIEnv_words + mirror_words; } SignatureIterator::SignatureIterator(Symbol* signature) { _signature = signature; _parameter_index = 0; }
SignatureIterator類的繼承體系如下:
之前在介紹快速解釋器時使用的是InterpreterRuntime::SignatureHandlerGenerator,而慢速解釋器使用的是SlowSignatureHandler。
初始化好各個變數後就能在InterpreterRuntime::slow_signature_handler()函數中調用iterate()函數,然後在iterate()函數中調用SignatureIterator::iterate_parameters()函數,調用的pass_int()、pass_double()和pass_object()等函數是SlowSignatureHandler類中定義的系列函數,實現如下:
virtual void pass_int(){ jint from_obj = *(jint *)(_from+Interpreter::local_offset_in_bytes(0)); _from -= Interpreter::stackElementSize; if (_num_int_args < Argument::n_int_register_parameters_c-1) { *_int_args++ = from_obj; _num_int_args++; } else { *_to++ = from_obj; } } virtual void pass_long(){ intptr_t from_obj = *(intptr_t*)(_from+Interpreter::local_offset_in_bytes(1)); _from -= 2*Interpreter::stackElementSize; // n_int_register_parameters_c的值為6 if (_num_int_args < Argument::n_int_register_parameters_c-1) { *_int_args++ = from_obj; _num_int_args++; } else { *_to++ = from_obj; } } virtual void pass_object(){ intptr_t *from_addr = (intptr_t*)(_from + Interpreter::local_offset_in_bytes(0)); _from -= Interpreter::stackElementSize; // n_int_register_parameters_c的值為6 if (_num_int_args < Argument::n_int_register_parameters_c-1) { *_int_args++ = (*from_addr == 0) ? NULL : (intptr_t)from_addr; _num_int_args++; } else { *_to++ = (*from_addr == 0) ? NULL : (intptr_t) from_addr; } }
通過如上函數的實現我們能看到,將需要通過暫存器傳遞的參數暫時存儲到native方法的棧中,過多的參數也會存儲到棧中。如下圖所示。
我們暫時將需要通過暫存器傳遞的參數保存到新開闢過的14個slot中,而需要通過棧傳遞的參數放到param n … param 1區域中即可。然後我們接著看AbstractInterpreterGenerator::generate_slow_signature_handler()函數中生成的彙編程式碼的邏輯,如下:
// (6 + 0) * wordSize 0x00007fffe1005496: test $0x1,%ecx 0x00007fffe100549c: jne 0x00007fffe10054ad // 如果不相等,則跳轉到-- d -- 0x00007fffe10054a2: vmovss 0x30(%rsp),%xmm0 // 針對32位的移動 0x00007fffe10054a8: jmpq 0x00007fffe10054b3 // 跳轉到-- done -- // **** d **** 0x00007fffe10054ad: vmovsd 0x30(%rsp),%xmm0 // 針對64位的移動 // **** done **** // (6 + 1) * wordSize 0x00007fffe10054b3: test $0x2,%ecx 0x00007fffe10054b9: jne 0x00007fffe10054ca 0x00007fffe10054bf: vmovss 0x38(%rsp),%xmm1 0x00007fffe10054c5: jmpq 0x00007fffe10054d0 0x00007fffe10054ca: vmovsd 0x38(%rsp),%xmm1 // (6 + 2) * wordSize 0x00007fffe10054d0: test $0x4,%ecx 0x00007fffe10054d6: jne 0x00007fffe10054e7 0x00007fffe10054dc: vmovss 0x40(%rsp),%xmm2 0x00007fffe10054e2: jmpq 0x00007fffe10054ed 0x00007fffe10054e7: vmovsd 0x40(%rsp),%xmm2 // (6 + 3) * wordSize 0x00007fffe10054ed: test $0x8,%ecx 0x00007fffe10054f3: jne 0x00007fffe1005504 0x00007fffe10054f9: vmovss 0x48(%rsp),%xmm3 0x00007fffe10054ff: jmpq 0x00007fffe100550a 0x00007fffe1005504: vmovsd 0x48(%rsp),%xmm3 // (6 + 4) * wordSize 0x00007fffe100550a: test $0x10,%ecx 0x00007fffe1005510: jne 0x00007fffe1005521 0x00007fffe1005516: vmovss 0x50(%rsp),%xmm4 0x00007fffe100551c: jmpq 0x00007fffe1005527 0x00007fffe1005521: vmovsd 0x50(%rsp),%xmm4 // (6 + 5) * wordSize 0x00007fffe1005527: test $0x20,%ecx 0x00007fffe100552d: jne 0x00007fffe100553e 0x00007fffe1005533: vmovss 0x58(%rsp),%xmm5 0x00007fffe1005539: jmpq 0x00007fffe1005544 0x00007fffe100553e: vmovsd 0x58(%rsp),%xmm5 // (6 + 6) * wordSize 0x00007fffe1005544: test $0x40,%ecx 0x00007fffe100554a: jne 0x00007fffe100555b 0x00007fffe1005550: vmovss 0x60(%rsp),%xmm6 0x00007fffe1005556: jmpq 0x00007fffe1005561 0x00007fffe100555b: vmovsd 0x60(%rsp),%xmm6 // (6 + 7) * wordSize 0x00007fffe1005561: test $0x80,%ecx 0x00007fffe1005567: jne 0x00007fffe1005578 0x00007fffe100556d: vmovss 0x68(%rsp),%xmm7 0x00007fffe1005573: jmpq 0x00007fffe100557e 0x00007fffe1005578: vmovsd 0x68(%rsp),%xmm7
其中的%ecx中存儲的是float/double identifiers,這是一個組合數字,也就是能夠指明8個浮點數slot中,哪些存儲了float值,哪些存儲了double值,然後分別使用vmovss和vmovsd移動到對應的暫存器中。
下面接著看AbstractInterpreterGenerator::generate_slow_signature_handler()函數中生成的彙編程式碼的邏輯,如下:
// 將Method::access_flags存儲到%ecx中 0x00007fffe100557e: mov 0x28(%rbx),%ecx // 是否含有JVM_ACC_STATIC標識 0x00007fffe1005581: test $0x8,%ecx // 如果不含有,表示為實例方法,則將棧頂值存儲到c_rarg1,即%rsi中 0x00007fffe1005587: cmove (%rsp),%rsi // 將棧頂值存儲到c_rarg2、c_rarg3、c_rarg4及c_rarg5中 0x00007fffe100558c: mov 0x8(%rsp),%rdx 0x00007fffe1005591: mov 0x10(%rsp),%rcx 0x00007fffe1005596: mov 0x18(%rsp),%r8 0x00007fffe100559b: mov 0x20(%rsp),%r9 // 恢復%rsp 0x00007fffe10055a0: add $0x70,%rsp 0x00007fffe10055a4: retq
之前已經將棧中保存的浮點數存儲到了對應的暫存器中,現在需要將整數也保存到對應的暫存器中。
當將相關的值移動到暫存器後,新開始的14個slot就沒有用處了,直接更改%rsp的指向彈出這14個slot,這樣慢速解釋器為調用本地函數準備好了調用相關的參數。
對於慢速解釋器來說,其對於所有的本地方法,生成的常式都是同一個,所以在這個常式中就必須檢查目標方法是否為靜態的、是否需要同步,然後根據不同的情況進入不同的路徑。還需要檢查參數數量和參數類型,然後準備棧參數。如果每個native方法的調用都涉及到這些邏輯,那麼執行的速度就會相對較慢一些。
對於快速解釋器來說,只是執行了必要的邏輯,所以執行的速度會相對快一些。
2、result_handler
無論是快速解釋器還是慢速解釋器,都會根據native方法的結果類型返回對應的result_handler(快速解釋器返回result_handler的邏輯在InterpreterRuntime::SignatureHandlerGenerator::generate()函數中,慢速解釋器在InterpreterRuntime::slow_signature_handler()函數中)。下面我們就來看一下result_handler,生成result_handler的程式碼如下:
static const BasicType types[Interpreter::number_of_result_handlers] = { T_BOOLEAN, T_CHAR , T_BYTE , T_SHORT , T_INT , T_LONG , T_VOID , T_FLOAT , T_DOUBLE , T_OBJECT }; { CodeletMark cm(_masm, "result handlers for native calls"); int is_generated[Interpreter::number_of_result_handlers]; // 10 memset(is_generated, 0, sizeof(is_generated)); for (int i = 0; i < Interpreter::number_of_result_handlers; i++) { BasicType type = types[i]; if (!is_generated[Interpreter::BasicType_as_index(type)]++) { int x = Interpreter::BasicType_as_index(type); Interpreter::_native_abi_to_tosca[x] = generate_result_handler_for(type); } } }
會根據不同的方法返回類型生成不同的常式,這些常式都會保存到對應的_native_abi_to_tosca數組中,這個數組的定義如下:
static address _native_abi_to_tosca[number_of_result_handlers];
調用的generate_result_handler_for()函數的實現如下:
address TemplateInterpreterGenerator::generate_result_handler_for(BasicType type) { switch (type) { case T_BOOLEAN: __ c2bool(rax); break; case T_CHAR : __ movzwl(rax, rax); break; case T_BYTE : __ sign_extend_byte(rax); break; case T_SHORT : __ sign_extend_short(rax); break; case T_INT : /* nothing to do */ break; case T_LONG : /* nothing to do */ break; case T_VOID : /* nothing to do */ break; case T_FLOAT : /* nothing to do */ break; case T_DOUBLE : /* nothing to do */ break; case T_OBJECT : // 對於返回類型為Object來說,會將結果存儲到棧上特定的位置 __ movptr(rax, Address(rbp, frame::interpreter_frame_oop_temp_offset*wordSize)); break; default : ShouldNotReachHere(); } __ ret(0); return entry; }
可以看到,向Interpreter::_native_abi_to_tosca數組中存儲了不同類型的入口。
(1)T_BOOLEAN
調用如下函數生成處理方法返回類型為boolean的常式:
void MacroAssembler::c2bool(Register x) { // implements x == 0 ? 0 : 1 // note: must only look at least-significant byte of x // since C-style booleans are stored in one byte // only! (was bug) andl(x, 0xFF); setb(Assembler::notZero, x); }
生成的彙編如下:
0x00007fffe100ecc0: and $0xff,%eax 0x00007fffe100ecc6: setne %al // 獲取ZF值後,取反,然後再放入%al中 0x00007fffe100ecc9: retq
setxx系列指令根據標誌暫存器eflags的值,將操作數設置為0或1,如setne表示ZF=0時,也就是不相等時設置%al為1,否則設置為0。
(2)T_CHAR
生成的彙編如下:
0x00007fffe100ecca: movzwl %ax,%eax 0x00007fffe100eccd: retq
(3)T_BYTE
生成的彙編如下:
0x00007fffe100ecce: movsbl %al,%eax 0x00007fffe100ecd1: retq
(4)T_SHORT
生成的彙編如下:
0x00007fffe100ecd2: movswl %ax,%eax 0x00007fffe100ecd5: retq
(5)T_INT、T_LONG、T_VOID、T_FLOAT與T_DOUBLE
只會生成一個retq指令,因為相關的值都根據調用約定快取到了特定的暫存器中。
(6)T_OBJECT
生成的彙編如下:
0x00007fffe100ecdb: mov 0x10(%rbp),%rax 0x00007fffe100ecdf: retq
0x10(%rbp)在之前介紹為native方法設置解釋器入口時介紹過,這個slot處為oop temp,當native方法返回對象時,將結果存儲到這個slot中。
公眾號 深入剖析Java虛擬機HotSpot 已經更新虛擬機源程式碼剖析相關文章到60+,歡迎關注,如果有任何問題,可加作者微信mazhimazh,拉你入虛擬機群交流