云霞育儿网

利用好LLM 的prefix特性，用小模型先回复，然后大模型续上，LLM 首句延

2025-07-21 00:28:27 JavaEdge聊AIss 科技

利用好LLM 的prefix特性，用小模型先回复，然后大模型续上，LLM 首句延迟可以大幅降低到100ms级别。编程严选网人工智能

阅读：1 点赞：0