package com.zy.ai.service; import com.alibaba.fastjson.JSON; import com.zy.ai.entity.ChatCompletionRequest; import com.zy.ai.entity.ChatCompletionResponse; import com.zy.ai.entity.LlmCallLog; import com.zy.ai.entity.LlmRouteConfig; import com.zy.ai.gateway.AiGatewayService; import com.zy.ai.gateway.adapter.openai.OpenAiChatCompletionsMapper; import com.zy.ai.gateway.model.AiRequest; import com.zy.ai.gateway.model.AiResponse; import lombok.RequiredArgsConstructor; import lombok.extern.slf4j.Slf4j; import org.springframework.beans.factory.annotation.Value; import org.springframework.stereotype.Service; import org.springframework.web.client.RestClientResponseException; import org.springframework.web.reactive.function.client.WebClientResponseException; import reactor.core.publisher.Flux; import java.util.ArrayList; import java.util.Date; import java.util.HashMap; import java.util.List; import java.util.Locale; import java.util.UUID; import java.util.concurrent.LinkedBlockingQueue; import java.util.concurrent.TimeUnit; import java.util.concurrent.atomic.AtomicBoolean; import java.util.concurrent.atomic.AtomicReference; import java.util.function.Consumer; @Slf4j @Service @RequiredArgsConstructor public class LlmChatService { private static final int LOG_TEXT_LIMIT = 16000; private final LlmRoutingService llmRoutingService; private final LlmCallLogService llmCallLogService; private final LlmSpringAiClientService llmSpringAiClientService; private final AiGatewayService aiGatewayService; private final OpenAiChatCompletionsMapper openAiChatCompletionsMapper; private final AiTokenUsageService aiTokenUsageService; @Value("${llm.base-url:}") private String fallbackBaseUrl; @Value("${llm.api-key:}") private String fallbackApiKey; @Value("${llm.model:}") private String fallbackModel; @Value("${llm.thinking:false}") private String fallbackThinking; /** * 通用对话方法：传入 messages，返回大模型文本回复 */ public String chat(List messages, Double temperature, Integer maxTokens) { ChatCompletionRequest req = new ChatCompletionRequest(); req.setMessages(messages); req.setTemperature(temperature != null ? temperature : 0.3); req.setMax_tokens(maxTokens != null ? maxTokens : 1024); req.setStream(false); ChatCompletionResponse response = complete(req, "chat"); if (response == null || response.getChoices() == null || response.getChoices().isEmpty() || response.getChoices().get(0).getMessage() == null || response.getChoices().get(0).getMessage().getContent() == null || response.getChoices().get(0).getMessage().getContent().isEmpty()) { return null; } return response.getChoices().get(0).getMessage().getContent(); } public ChatCompletionResponse chatCompletion(List messages, Double temperature, Integer maxTokens, List