最新公告
  • 本站一直秉承服务宗旨:履行“站长”责任,销售只是起点 服务永无止境!”的经营理念立即加入
  • 中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能

    梦晨 发自 凹非寺

    量子位 | 公众号 QbitAI

    大模型搞多模态,做文字、图像、音视频这几样就够了?

    中科院自动化所说不:

    我们还加入了3D点云和更多传感器信号。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图

    国产大模型新成员,千亿参数全模态大模型「紫东太初2.0」正式亮相。

    不光能认知和理解多模态数据,还能在多轮对话中进一步与用户交互。

    AI离理解现实世界中复杂多样的信息,又近了一步。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图1

    而且不仅如此,多个数据,甚至不同模态数据一起出现也难不倒它。

    对于车内视角和车外视角的两个视频,可以找出共同特点。

    图书馆照片和汽车鸣笛音频一起出现,也能分析出奇怪之处并给出解释。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图2

    认知、推理之外,紫东太初2.0也可以完成多模态生成任务。

    图像、音频、视频一起出现,就能结合起来讲一个完整的故事。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图3

    又或者提取多模态数据中的特征并进行模仿。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图4

    AI如何理解全模态?

    为什么要做多模态甚至全模态?

    团队介绍到,现实世界中本来就充满了复杂多样的异构信息,人类自己也是综合多模态信息去理解这个世界的。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图5

    从模态的种类来说,文本只是其中非常小的一部分。

    但从数据收集的角度来说,文本却又是数据丰富的。

    AI擅长的就是从海量数据中提取出隐藏的规律,所以语言大模型进展快也就不奇怪了。

    其他模态数据本来就少,尤其是做多模态需要的配对数据就更稀缺。

    拿大家已经很熟悉的文生图AI绘画来说,训练阶段需要大量的图-文配对数据,生产成本已经很高。

    要想得到充足的文字、图像、音频、视频、3D、信号等模态之间的配对数据,那就想都别想了。

    学术界为这个问题也想出一种解决办法:

    以其中一种模态为核心,作为桥梁连接其他模态。

    在科研探索中又分化出两条路线。

    国外Meta的ImageBind选择了以图像为核心,

    国内的紫东太初2.0团队则是“以语言为核心”路线的代表。

    团队对此的考量是,图像能表达的语义还是不够丰富,比如像抽象的概念后还是得靠语言。

    以语言为核心连接起全模态数据,也为AI大模型打开很多新的应用空间,在发布会现场也做了展示。

    全模态大模型用在哪?

    外科手术中除了需要用到视觉,触觉传感器数据也同样重要。

    两种数据跨模态融合,就解决了机器人辅助手术中的国际性难题。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图6

    同样是医学领域,医学影像、患者照片、病例等结合起来,还可以辅助罕见病的鉴别诊断。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图7

    交通领域,多模态协同推理也能更精准研判违规行为。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图8

    对于网络谣言常见的视频画面与音频播报内容不一致的手段,多模态大模型也能加以识别。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图9

    企业和组织想要借助这些全模态能力开发应用,也可以直接到紫东太初大模型开放服务平台。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图10

    简单来说,就是AI应用开发全生命周期的每一个环节所对应的服务都安排好了。

    开放服务平台内置MindSpore、Pytorch等主流开源深度学习框架,提供大模型下游微调、自动学习、可视化拖拽建模、交互式代码开发等不同建模方式。主打全方位国产可控、快速切入客户场景,以及简单易用的人工智能建模和应用。

    全模态大模型怎么炼成的?

    说起来,全模态大模型并不是凭空出现。

    20*1月,中科院自动化所就发起集团式攻关,聚焦多模态大模型路线

    20*9月,发布首个千亿参数三模态大模型紫东太初1.0, 做到多模态统一表示,相互生成、推理。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图11

    在应用实践过程中又发现数字时代万物互联的新需求,融入3D、视频、传感信号等更多模态数据,进一步突破感知、认知和决策的交互屏障。

    但全模态也不是终点。

    在发布会现场,中科院自动化研究所所长徐波表示,站在更宏观的视角,全模态大模型属于信息智能的突破。

    未来要通向AGI,势必还要与另两大路线“类脑智能”和“博弈智能”再次融合。

    中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能插图12

    — 完 —

    量子位 QbitAI · 头条号签约

    1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
    2. 分享目的仅供大家学习和交流,您必须在下载后24小时内删除!
    3. 不得使用于非法商业用途,不得违反国家法律。否则后果自负!
    4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
    5. 如有链接无法下载、失效或广告,请联系管理员处理!
    6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
    7. 如有侵权麻烦联系邮箱2697381891@qq.com删除文章!

    源码库 » 中科院自动化所全模态大模型亮相,图文音视频3D传感器信号全能
    • 3029会员总数(位)
    • 37687资源总数(个)
    • 588本周发布(个)
    • 104 今日发布(个)
    • 1171稳定运行(天)

    提供最优质的资源集合

    立即查看 了解详情