问答社区

原创作者: 图龙网络科技发布时间： 2023-09-23 240.63K 人阅读

多模态模型在HuggingFace上火了：参数量只有968M！

太极混元发布于 5个月前分类：语言模型

1731930545-c4ca4238a0b9238

这两天，有一个开源的多模态模型Omnivision在HuggingFace上比较火，这个模型参数量只有968M，也是目前我所看到的最小的多模态模型。Omnivision-968M是由创业公司Nexa AI所发布，这家公司的使命就是开发先进的端侧AI模型，端侧AI模型不需要部署在云端，而是可以直接跑在本地设备上，不仅成本低，而且也可以保护用户的隐私。这次发布的Omnivision-968M可以在 M4 Pro MacBook 上运行，为一张 1046×1568 的图像生成描述仅需不到 2 秒处理时间，而且只占用 988 MB 内存。

1731930564-c81e728d9d4c2f6

这两天，有一个开源的多模态模型Omnivision在HuggingFace上比较火，这个模型参数量只有968M，也是目前我所看到的最小的多模态模型。Omnivision-968M是由创业公司Nexa AI所发布，这家公司的使命就是开发先进的端侧AI模型，端侧AI模型不需要部署在云端，而是可以直接跑在本地设备上，不仅成本低，而且也可以保护用户的隐私。这次发布的Omnivision-968M可以在 M4 Pro MacBook 上运行，为一张 1046×1568 的图像生成描述仅需不到 2 秒处理时间，而且只占用 988 MB 内存。

1731930588-eccbc87e4b5ce2f

而且，在一些多模态评测集上，Omnivision 的表现均优于此前全球最小的视觉语言模型nanoLLAVA（1B参数）：

1731930619-a87ff679a2f3e71

部分指标也接近参数量更大的Qwen2-VL-2B：

1731930644-e4da3b7fbbce234

下面Omnivision-968M的一些demo：

给图片生成描述：
下面Omnivision-968M的一些demo：
- 给图片生成描述：
- 找到图片中的特定物体：
- 分析食物图像并生成食谱：
- 为什么Omnivision-968M可以这么小？这里我们可以看一下Omnivision-968M的模型架构，它是基于LLava架构，主要包括三个组件：
- 基础LLM：Qwen2.5-0.5B-Instruct。视觉编码器：SigLIP-400M，处理384x384分辨率图像，patch size是14x14。
  投影层：采用MLP将视觉编码器的特征与语言模型的embedding进行对齐。与原始的Llava架构相比，这里的投射层将将图像tokens从729减少到81（减少9倍），降低了延迟和计算成本。
  
  此外，Omnivision的训练也采用三阶段的策略：预训练 -> SFT -> DPO。预训练阶段使用图像-文本对建立基本的视觉-语言对齐，在这个阶段，只有投影层的参数是可训练的。SFT阶段使用基于图像的问答数据集来增强模型的上下文理解，这个阶段涉及在包含图像的结构化聊天记录上进行训练，以便模型生成更符合上下文的响应。最后的DPO阶段，先使用基础模型对图像生成输出，然后采用Qwen2-VL-72B-Instruct作为教师模型对输出结果修正，这里只修正输出的准确性，而尽量持与原始响应的高度语义相似性。原始输出和修正结果就构成了DPO训练的pair对。
  
  目前Omnivision可以直接在HuggingFace上下载：
  
  https://huggingface.co/NexaAIDev/omnivision-968M
  
  如果要使用，要首先安装Nexa-SDK，它是一个开源的、本地设备上的推理框架。安装后就可以在终端直接运行：
  
  nexa run omnivision

0个回复

龙族们都在等待回复

提供中小企业建站高端正版精品系统

正品模板购买协议

签到

客服

工作时间

工作日：9:00 - 18:00
节假日：9:00 - 18:00

点击咨询客服

微信
扫一扫添加客服微信

智能

提问

登录

注册


or

or

忘记密码？

发布新帖
图龙网络科技工作室+官方网站微信
百姓声音

日本风情街在我国多城市开业引争议，网友怒批切勿盲目追求他国文化！

网信办要求取消明星艺人榜单“饭圈”治理升级！

疫苗接种尽早打，防范未然靠大家，凯里体育馆几乎天天座爆满

辛巴直播间狂飙：谁也不能把我打倒，我是英雄，不能被打成狗熊

绿色环境垃圾分类红领巾在行动

推动解决老年人智能技术困难
民族文化

拥有很好的技术素质也无法赚到钱，通常涉及到哪些方面的原因？

贵州黔东南旅游要塞第一苗族“村落鼻祖”郎德村，吸引着国内外游客！

贵州“守墓人”白天工地搬砖月薪3000块，晚上回来守着 567具棺材

贵州最美“灵儿公主”杨宛灵惊艳登场竞选“形象大使竞选”

雷山县三角田爬坡节，站得高看得远风光无限好

2021年贵州台江阳芳-鼓藏节游行又到了
餐饮美食

餐饮投资管理公司织梦企业模板自适应手机端（定制版）

餐饮加盟行业网站织梦模板带手机端站（定制版）

餐饮加盟烹饪餐饮小吃培训学校类网站织梦模板带手机移动端（定制版）

非“摆地摊“莫属，我的朋友圈里也蠢蠢欲动，大家纷纷商量卖什么好。

刷毛肚火锅配方

正宗-纸包鱼烤鱼开花祖传秘方
设计软件

官方正版CHATGPT智能语言创作系统+音乐+视频+AI搜索3.1.6至尊版

同城家政预约服务/理疗/美容美甲/推拿足浴技师派单小程序（优化版）

电线电缆厂家类网站pbootcms模板(自适应手机端)

Audio Jungle超级配乐库精选影视片头背景音乐第86辑
素材标签
Adobe After Effects (12) Adobe公司 (11) AE模板 (5) AI智能机器人 (18) AI智能语言 (16) AI智能语言模型 (18) AI智能语言系统 (17) CHATGPT智能 (16) Chatgpt智能语言助手 (4) CHATGPT智能语言大模型 (18) CHATGPT智能语言系统 (10) CHATGPT正版系统 (6) pbootcms (11) PbootCMS内核 (5) pbootcms模板 (10) YUNCMS (8) 个人博客 (4) 主题巴巴 (7) 云优模板 (6) 仪器设备 (3) 企业网站 (3) 企业营销 (5) 创意营销 (6) 博客主题 (4) 品牌营销 (7) 外卖小程序 (5) 媒体营销 (6) 家政服务 (5) 工商财税 (4) 广告传媒 (3) 广告营销 (4) 建站公司 (5) 手机软件 (4) 教育培训 (4) 新闻资讯 (4) 智慧同城小程序 (6) 智慧同城小程序源码 (5) 智慧城市 (4) 智慧小程序 (5) 机械设备 (5) 汽车租赁 (5) 热点营销 (4) 织梦模板 (8) 营销思维 (6) 装修设计 (3)

近期评论
太极混元发表在《格创校园跑腿微信小程序前后端源码v1.1.64+v1.1.73更新版》
太极混元发表在《格创校园跑腿微信小程序前后端源码v1.1.64+v1.1.73更新版》
太极混元发表在《官方正版CHATGPT智能语言创作系统+音乐+视频+AI搜索3.1.6至尊版》
太极混元发表在《智慧城市同城V4小程序V2.28独立开源版+小程序+全插件+VUE小程序开源前端》
太极混元发表在《官方正版CHATGPT智能付费创作系统+音乐+视频+AI搜索3.1.0至尊版》