NVIDIA和MIT的研究人員推出了一種新的視覺語言模型(VLM)預訓練框架,名為VILA。這個框架旨在通過有效的嵌入對齊和動態(tài)神經(jīng)網(wǎng)絡架構(gòu),改進語言模型的視覺和文本的學習能力。VILA通過在大規(guī)模數(shù)據(jù)集如Coy0-700m上進行預訓練,采用基于LLaVA模型的不同預訓練策略進行測試。研究人員還引入了視覺指令調(diào)整方法,利用視覺語言數(shù)據(jù)集進行基于提示的指令調(diào)整來細化模型。VILA在視覺問答基準測試中...