云霞育儿网

利用好LLM 的prefix特性,用小模型先回复,然后大模型续上,LLM 首句延

利用好LLM 的prefix特性,用小模型先回复,然后大模型续上,LLM 首句延迟可以大幅降低到100ms级别。编程严选网 人工智能