“紫东太初”全模态大模型持续探索通用人工智能新路径-宇宙网

科技日报记者陆成宽

5月6日，在华为昇腾AI开发者峰会上，中国科学院自动化研究所“紫东太初”大模型研究中心常务副主任、武汉人工智能研究院院长王金桥研究员介绍，基于华为全栈国产化软硬件平台昇腾AI与开源AI框架昇思MindSpore，中国科学院自动化研究所和武汉人工智能研究院正在联合打造“紫东太初”2.0全模态大模型，可实现文本、图片、语音、视频、3D点云、传感信号等不同模态的统一表征和学习，助推通用人工智能时代加速到来。

自动化所供图

(资料图片)

超前布局，坚持以多模态技术探索通用人工智能

从婴幼儿开始，人类的认知学习就是建立在对现实世界图像、声音和文字等多种模态信息基础之上。突破模态限制，实现图、文、音等更多模态的通用大模型是人工智能融入现实世界的必然。

2019年开始，自动化所在语音、文本、图像等单模态大模型研究和应用基础上，瞄准多模态大模型领域开始联合攻关，并于2021年7月正式发布了全球首个千亿参数多模态大模型“紫东太初”，以多模态技术探索通用人工智能发展道路。

区别于当前以文本为主的大部分语言大模型，“紫东太初”大模型在研发之初即坚持以多模态技术为核心，利用图-音-文等更多类型数据进行跨模态的统一表征和学习，实现了图像、文本、语音三模态数据间的“统一表示”与“相互生成”，使人工智能大模型的理解和生成能力更加接近人类，为贯通多模态人工智能行业应用提供了创新基础，向通用人工智能迈出关键一步。

从感知到认知，面向数字物联世界再上新台阶

世界已经进入了数字物联时代。在“紫东太初”1.0应用推广过程中，除了需要处理海量语音、图像和文本等互联网信息外，更需要处理多种传感器、3D点云及视频等物联网海量数据，才能满足现实生产力的提高。针对数字物联时代的新需求与新趋势，中科院自动化研究所研究探索全模态大模型体系架构和基础算法，持续推动“紫东太初”技术和应用发展。

在文本、图片、音频、视频的基础上，“紫东太初”2.0可融入3D、视频、传感信号等更多模态数据，并优化语音、视频和文本的融合认知以及常识计算等功能，进一步突破感知、认知和决策的交互屏障，让人工智能从感知世界进化为认知世界，延伸出更加强大的通用能力。

打造全栈国产化通用人工智能底座

全栈国产化通用人工智能平台的实践对我国实现AI领域科技自立自强、占领科技创新高地具有重要的战略意义。“紫东太初”大模型从立项开始，就以中科院自动化所自研算法为核心，以全栈国产化基础软硬件昇腾AI平台为基础，依托武汉人工智能计算中心算力支持，真正意义上实现了国产人工智能大模型的可控、可信、可用，有力地促进了国产全栈式基础软硬件的发展。

目前，由自动化牵头打造的多模态人工智能产业联合体已陆续吸纳产学研各界近70家成员单位。围绕多模态大模型技术及应用，“紫东太初”大模型已在手语教学、法律咨询、交通出行、广电、医疗机器人、医学影像判读等数十个行业场景领域展现出广阔的落地潜力。在华为昇腾AI开发者峰会上，“紫东太初”大模型开源了基于昇腾与昇思的3.8B图像-文本-语音多模态模型并开放紫东太初大模型服务平台。

从互联网的图音文多模态走向物联网的全模态，以打造国产化通用人工智能底座为目标，自动化所将持续推进“紫东太初”大模型基础理论、关键技术和应用生态的全链条自主创新，着力以自主可控基础软硬件建立开源开放的多模态产业生态，不懈探索通用人工智能创新路径。