Qwen2-VL-7B的推理结果和OpenCompass榜单上的结果不一致 #722

zerovl · 2025-01-14T13:34:30Z

用下述代码测试了MMStar：
export exp_name=./Qwen2-VL-7B-Instruct export model_name=Qwen2-VL-7B CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --master_port=25678 --nproc-per-node=8 run_rh2.py --data MMStar --model ${model_name} --model-path $exp_name --verbose

本地结果：

OpenCompass榜单结果：

请问可能对不齐的原因有什么呀？这两个结果理论上是会对齐的对吗🤔

The text was updated successfully, but these errors were encountered:

PhoenixZ810 · 2025-01-16T03:47:53Z

你好，结果由于环境不同（transformers, torch, flash-attn, cuda）等会有不等的数值波动。
您的MMStar结果(59.6)和我们的结果(60.7)差距较小，可以理解为环境不同带来的小范围波动。
如果您有其他问题，欢迎讨论。

PhoenixZ810 self-assigned this Jan 16, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Qwen2-VL-7B的推理结果和OpenCompass榜单上的结果不一致 #722

Qwen2-VL-7B的推理结果和OpenCompass榜单上的结果不一致 #722

zerovl commented Jan 14, 2025

PhoenixZ810 commented Jan 16, 2025

Qwen2-VL-7B的推理结果和OpenCompass榜单上的结果不一致 #722

Qwen2-VL-7B的推理结果和OpenCompass榜单上的结果不一致 #722

Comments

zerovl commented Jan 14, 2025

PhoenixZ810 commented Jan 16, 2025