HBI复现问题 #12

zzezze · 2025-01-10T14:02:10Z

你好，就是HBI复现时候，一直无法跑到48.5以上，我想问一下作者现在还能复现出来吗？我都是直接克隆git，数据集与环境也是严格按照你的Readme的流程，我也重复好几次了，跑出来log里面都无法达到48.5以上，但是使用作者提供的checkpoint直接进行推理，却能达到论文里的指标；
数据集：MSR-VTT
显卡：2张A6000

jpthu17 · 2025-01-11T08:15:27Z

我只有A100，MSRVTT上的实验是在4*A100上跑出来的，一般来说，显卡数量和显卡型号都会对产生随机性。
此外，如果你追求性能，可以对dataloader做一点更改，用比较慢但是数据精度更高的视频读取方式：

HBI/HBI/dataloaders/dataloader_retrieval.py

Lines 238 to 254 in b261e9c

    
           def __getitem__(self, idx): 
        
               if self.mode == 'all': 
        
                   video_id, caption = self.sentences_dict[idx] 
        
                   text_ids, text_mask, s, e = self._get_text(caption) 
        
                   video, video_mask = self._get_rawvideo_dec(video_id, s, e) 
        
                   # video, video_mask = self._get_rawvideo(video_id, s, e) 
        
                   return text_ids, text_mask, video, video_mask, idx, hash(video_id.replace("video", "")) 
        
               elif self.mode == 'text': 
        
                   video_id, caption = self.sentences_dict[idx] 
        
                   text_ids, text_mask, s, e = self._get_text(caption) 
        
                   return text_ids, text_mask, idx 
        
               elif self.mode == 'video': 
        
                   video_id = self.video_list[idx] 
        
                   video, video_mask = self._get_rawvideo_dec(video_id) 
        
                   # video, video_mask = self._get_rawvideo(video_id) 
        
                   return video, video_mask, idx

更改为：

    if self.mode == 'all':
        video_id, caption = self.sentences_dict[idx]
        text_ids, text_mask, s, e = self._get_text(caption)
        # video, video_mask = self._get_rawvideo_dec(video_id, s, e)
        video, video_mask = self._get_rawvideo(video_id, s, e)
        return text_ids, text_mask, video, video_mask, idx, hash(video_id.replace("video", ""))
    elif self.mode == 'text':
        video_id, caption = self.sentences_dict[idx]
        text_ids, text_mask, s, e = self._get_text(caption)
        return text_ids, text_mask, idx
    elif self.mode == 'video':
        video_id = self.video_list[idx]
        # video, video_mask = self._get_rawvideo_dec(video_id)
        video, video_mask = self._get_rawvideo(video_id)
        return video, video_mask, idx

zzezze · 2025-01-11T08:25:19Z

非常感谢，具体问一下作者跑MSR-VTT的batch是开到多大的？128的话，应该一张80G的A100应该是显存够的

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

HBI复现问题 #12

HBI复现问题 #12

zzezze commented Jan 10, 2025

jpthu17 commented Jan 11, 2025 •

edited

Loading

zzezze commented Jan 11, 2025

HBI复现问题 #12

HBI复现问题 #12

Comments

zzezze commented Jan 10, 2025

jpthu17 commented Jan 11, 2025 • edited Loading

zzezze commented Jan 11, 2025

jpthu17 commented Jan 11, 2025 •

edited

Loading