diff --git "a/llm/\346\234\215\345\212\241\345\214\226\351\203\250\347\275\262.md" "b/llm/\346\234\215\345\212\241\345\214\226\351\203\250\347\275\262.md" index 3a278c4364..ecbc64147d 100644 --- "a/llm/\346\234\215\345\212\241\345\214\226\351\203\250\347\275\262.md" +++ "b/llm/\346\234\215\345\212\241\345\214\226\351\203\250\347\275\262.md" @@ -61,13 +61,13 @@ bash gen_serving_model.sh ${output_model_path} ${serving_model_path} ```bash # 1、拉取docker镜像,创建docker,要求cuda驱动大于520 docker pull registry.baidubce.com/paddlepaddle/fastdeploy-llm:0.0.9 -# 2.创建容器,进入docker +# 2.创建容器,挂载模型路径到容器中,进入docker nvidia-docker run --name 容器名 -v $PWD:/work --network=host --privileged --shm-size=5g -it registry.baidubce.com/paddlepaddle/fastdeploy-llm:0.0.9 /bin/bash # 3、进入docker,设置如下环境变量,并且启动triton服务 export FLAGS_cache_inference_while_scope=1 export BATCH_SIZE=8 #指定batch_size - +export IS_PTUNING=0 #非ptuning模型 # 配置此环境变量,会将接收到的请求dump到日志,便于后期追查问题 export ENABLE_DEBUG_LOG=1