PORT=8000 # llm related MODEL_NAME=qwen2 PROMPT_NAME=qwen2 MODEL_PATH=Qwen/Qwen1.5-14B-Chat-GPTQ # rag model related EMBEDDING_NAME=maidalun1020/bce-embedding-base_v1 RERANK_NAME=maidalun1020/bce-reranker-base_v1 # vllm related ENGINE=vllm TOKENIZE_MODE=auto GPU_MEMORY_UTILIZATION=0.8 TENSOR_PARALLEL_SIZE=1 DTYPE=auto TASKS=llm,rag
TASK
参数解释:
llm
表示启动对话大模型,rag
表示启动文档文档相关接口,比如embedding
、rerank
待完善
启动模型服务之后
cd streamlit-demo
修改 .env
文件中的以下两个变量
CHAT_API_BASE # 聊天接口地址 EMBEDDING_API_BASE # 嵌入模型接口地址(可选)
启动前端
streamlit run streamlit_app.py