剑桥、腾讯AI Lab等提出狂语言模子PandaGPT:一个模子不同六种模态
克日,剑桥来自剑桥、腾讯提出态NAIST 以及腾讯 AI Lab 的狂语钻研者推出了一款名为 PandaGPT 的跨模态语言模子,揭示了在家养智能规模的言模立异试验 。经由散漫 ImageBind 的个模模态对于齐能耐以及 Vicuna 的天在行腕 ,同时实现为了六种模态下的不同指令清晰与追寻能耐。尽管 PandaGPT 的种模下场尚有提升空间,但揭示了跨模态 AGI 智能的剑桥睁开后劲 。
来自剑桥、腾讯提出态NAIST 以及腾讯 AI Lab 的狂语钻研者近期宣告了一项名为 PandaGPT 的钻研下场 ,这是言模一种将大型语言模子与差距模态对于齐 、绑定以实现跨模态指令追寻能耐的个模技术 。PandaGPT 可能实现诸如天生详细的不同图像形貌、凭证视频编写故事以及回覆对于音频的种模下场等重大使命。它可能同时接管多模态输入 ,剑桥并做作地组合它们的语义 。
名目主页: https://panda-gpt.github.io/
代码: https://github.com/yxuansu/PandaGPT
论文: http://arxiv.org/abs/2305.16355
线上 Demo 揭示: https://huggingface.co/spaces/GMFTBY/PandaGPT
为了实现图像 & 视频、文本、音频 、热力争、深度图、IMU 读数六种模态下的指令追寻能耐,PandaGPT 将 ImageBind 的多模态编码器与 Vicuna 大型语言模子相散漫(如上图所示)。
为了使 ImageBind 的多模态编码器以及 Vicuna 的大型语言模子的特色空间对于齐,PandaGPT 运用了组合 LLaVa 以及 Mini-GPT4 宣告的共 160k 基于图像的语言指令追寻数据作为磨炼数据 。每一个磨炼实例搜罗一张图像以及响应一组多轮对于话。
为了防止破损 ImageBind 自己的多模态对于齐性子以及削减磨炼老本,PandaGPT 只更新了如下模块:
在 ImageBind 的编码服从上新增一个线性投影矩阵 ,将 ImageBind 天生的展现转换后插入到 Vicuna 的输入序列中;
在 Vicuna 的留意力模块上削减了格外的 LoRA 权重 。两者参数总数约占 Vicuna 参数的 0.4%。磨炼函数为传统的语言建模目的。值患上留意的是,磨炼历程中仅对于模子输入对于应部份妨碍权重更新,不同过错用户输入部份妨碍合计 。全部磨炼历程在 8×A100 (40G) GPUs 上实现磨炼需要约 7 小时。
值患上夸张的是,当初的 PandaGPT 版本只运用了对于齐的图像 - 文本数据妨碍磨炼,可是秉持了 ImageBind 编码器的六种模态清晰能耐(图像 / 视频、文本 、音频、深度度、热量图以及 IMU)以及它们之间的对于齐属性 ,从而具备在所有模态之间跨模态能耐 。
在试验中 ,作者揭示了 PandaGPT 对于差距模态的清晰能耐,搜罗基于图像 / 视频的问答,基于图像 / 视频的创意写作,基于视觉以及听觉信息的推理等等 ,下面是一些例子:
图像:
音频:
视频:
与其余多模态语言模子比照,PandaGPT 最突出的特色是它可能清晰并将差距模态的信息做作地组合在一起