https://codingnote.cc/p/329027/
从《刺杀小说家》到多模态学习:语言和视觉的相互促进