From 5a61193519cb7066138aa79f12eb0c72291390b2 Mon Sep 17 00:00:00 2001
From: SCheekati <88806457+SCheekati@users.noreply.github.com>
Date: Tue, 29 Oct 2024 18:46:55 -0400
Subject: [PATCH 1/2] Fixed mistake in readme (#933)

Co-authored-by: Olatunji Ruwase <olruwase@microsoft.com>
---
 inference/huggingface/zero_inference/README.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/inference/huggingface/zero_inference/README.md b/inference/huggingface/zero_inference/README.md
index f6dd4850e..acca9404e 100644
--- a/inference/huggingface/zero_inference/README.md
+++ b/inference/huggingface/zero_inference/README.md
@@ -90,7 +90,7 @@ deepspeed --num_gpus 1 run_model.py --model bigscience/bloom-7b1 --batch-size 8
 Here is an example of running `meta-llama/Llama-2-7b-hf` with Zero-Inference using 4-bit model weights and offloading kv cache to CPU:
 
 ```sh
-deepspeed --num_gpus 1 run_model.py --model meta-llama/Llama-2-7b-hf` --batch-size 8 --prompt-len 512 --gen-len 32 --cpu-offload --quant-bits 4 --kv-offload
+deepspeed --num_gpus 1 run_model.py --model meta-llama/Llama-2-7b-hf --batch-size 8 --prompt-len 512 --gen-len 32 --cpu-offload --quant-bits 4 --kv-offload
 ```
 
 ## Performance Tuning Tips

From cab3361abee120620384d8f8c3cb1d52631f0f2e Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E2=84=8D=F0=9D=95=A0=F0=9D=95=9D=F0=9D=95=9D=F0=9D=95=A0?=
 =?UTF-8?q?=F0=9D=95=A8=20=F0=9D=95=84=F0=9D=95=92=F0=9D=95=9F?=
 <hollowman@opensuse.org>
Date: Wed, 30 Oct 2024 00:52:28 +0200
Subject: [PATCH 2/2] Replace deprecated transformers.deepspeed module (#872)

venv/lib/python3.10/site-packages/transformers/deepspeed.py:23:
FutureWarning: transformers.deepspeed module is deprecated and
will be removed in a future version. Please import deepspeed
modules directly from transformers.integrations
  warnings.warn(

Signed-off-by: Songlin Jiang <songlin.jiang@csc.fi>
Co-authored-by: Logan Adams <114770087+loadams@users.noreply.github.com>
---
 applications/DeepSpeed-Chat/dschat/utils/model/model_utils.py  | 2 +-
 applications/DeepSpeed-VisualChat/utils/model/modeling_dsvl.py | 2 +-
 inference/huggingface/zero_inference/run_model.py              | 2 +-
 3 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/applications/DeepSpeed-Chat/dschat/utils/model/model_utils.py b/applications/DeepSpeed-Chat/dschat/utils/model/model_utils.py
index 97d3bff15..050819a22 100644
--- a/applications/DeepSpeed-Chat/dschat/utils/model/model_utils.py
+++ b/applications/DeepSpeed-Chat/dschat/utils/model/model_utils.py
@@ -10,7 +10,7 @@
     AutoModel,
 )
 from huggingface_hub import snapshot_download
-from transformers.deepspeed import HfDeepSpeedConfig
+from transformers.integrations.deepspeed import HfDeepSpeedConfig
 
 from dschat.utils.model.reward_model import RewardModel
 from dschat.utils.utils import load_state_dict_into_model, print_rank_0
diff --git a/applications/DeepSpeed-VisualChat/utils/model/modeling_dsvl.py b/applications/DeepSpeed-VisualChat/utils/model/modeling_dsvl.py
index eb9db9428..1407c1dfc 100755
--- a/applications/DeepSpeed-VisualChat/utils/model/modeling_dsvl.py
+++ b/applications/DeepSpeed-VisualChat/utils/model/modeling_dsvl.py
@@ -15,7 +15,7 @@
     os.path.abspath(os.path.join(os.path.dirname(__file__), os.path.pardir)))
 import data.DST as DST # default special tokens
 from torch.utils.data import DataLoader
-from transformers.deepspeed import HfDeepSpeedConfig
+from transformers.integrations.deepspeed import HfDeepSpeedConfig
 import numpy as np
 from .vis_proj import VisProjection_vit, VisProjection_perceiver
 
diff --git a/inference/huggingface/zero_inference/run_model.py b/inference/huggingface/zero_inference/run_model.py
index 230d601cb..d0e16eca3 100644
--- a/inference/huggingface/zero_inference/run_model.py
+++ b/inference/huggingface/zero_inference/run_model.py
@@ -19,7 +19,7 @@
 from transformers import (AutoConfig, AutoTokenizer, AutoModelForCausalLM, 
                           BloomForCausalLM, OPTForCausalLM, LlamaForCausalLM,
                         )
-from transformers.deepspeed import HfDeepSpeedConfig
+from transformers.integrations.deepspeed import HfDeepSpeedConfig
 from utils import (GB, add_model_hooks, cache_bytes,
                    get_filename, get_quant_config, hidden_bytes, meta_to_cpu,
                    model_bytes, write_benchmark_log)