CAIIAC丨大模型与通用人工智能专题论坛重磅来袭！

导读

为全面实施创新驱动发展和科教兴国战略，深入贯彻《国家新一代人工智能发展规划》部署要求，调动广大智能科技领军人才的积极性和创造性，促进通用人工智能与未来产业融合发展，加快发展新质生产力和新型工业化，打造具有全球影响力的产业科技创新中心。2024年4月12日—14日，中国人工智能学会将在苏州工业园区举办“‘创新驱动•数智强国’—第十三届吴文俊人工智能科学技术奖颁奖典礼暨2023中国人工智能产业年会”。

活动背景

近年来，全球新一轮科技革命和产业变革迅猛发展，生成式AI、大模型和通用人工智能已成为催生新产业、新业态和新模式的重点领域。如何推动产业链供应链优化升级，加强人工智能关键核心技术攻关，着力解决重大应用和产业化问题，积极培育新兴产业和未来产业，强化国家战略科技力量，加快新质生产力建设，打造具有国际竞争力的数字产业集群尤其重要。

激励创新，智能担当。2024年是中国政府与新加坡政府开发建设苏州工业园区30周年，也是学会贯彻落实全国两会精神，赋能苏州积极开展“人工智能+”行动，发挥苏州工业园区的探路、引领和示范作用，推动人工智能与实体经济深度融合、高质量发展再上新台阶，努力打造开放创新的世界一流高科技园区，扩大学会与地方交流合作的关键之年。

论坛特色

2023中国人工智能产业年会China Artificial Intelligence Industry Annual Conference（CAIIAC2023）由中国人工智能学会发起主办，迄今已成功举办九届产业年会。作为吴文俊人工智能科学技术奖颁奖典礼的主题配套活动，大会集闭门研讨、荣誉表彰、高端论坛、产品展示、报告发布等核心板块于一体，是国内权威性高、规模较大、品牌力强、行业影响深远的年度人工智能标志性颁奖盛会。

本次大会以“创新驱动•数智强国”为主题，设置了“1+10+X”模式，含1场主论坛、10场专题论坛，以及权威颁奖、启动仪式、报告发布、科学之夜等特色活动。主办方邀请部委领导专家、两院院士、吴文俊人工智能科学技术奖励委员会委员、提名及评委专家、获奖代表和企业家等研讨交流，发挥获奖项目团队、人工智能院校成果的学术、人才、技术和产业优势，在主题报告环节设置“智能系统——人工智能”校长专题报告会，重点探讨如何推动人工智能前沿技术应用与产业生态协同发展。通过展望人工智能未来趋势，交流关键核心技术与未来产业创新，引发智能系统促进院校产教融合深度思考和观点碰撞。

报告亮点

4月14日上午，大会组委会将隆重推出“大模型与通用人工智能”专题论坛，邀请教育部长江学者特聘教授、中国图象图形学学会青工委副主任、北京航空航天大学徐迈教授担任论坛主席。本次论坛还荣幸邀请来自全国知名高校和领军企业的权威学者和杰出专家，他们在大模型与通用人工智能领域取得了显著成就，包括国家杰出青年基金获得者、国家“万人计划”领军人才，以及中科院卢嘉锡青年人才奖获得者等学者专家齐聚一堂。本次论坛聚焦大模型与通用人工智能关键技术，探讨大模型的优化和泛化、通用人工智能的实现方式等，探究具身智能、多模态多任务学习、语义空间对齐等重要的AI技术的理论发展和智能人机交互、OCR、内容生成等AI技术落地应用，向广大专业同行分享大模型与通用人工智能的关键技术、创新难点及发展趋势。

本次论坛旨在提供全面了解人工智能在大模型与通用人工智能应用的平台，推动产业创新与数字化转型，通过观点的交流与碰撞，帮助政府部门、科研机构、商业企业、科技园区和金融部门等提供方向指引与决策支持，助力企业实现智能化的生产和运营管理，提高生产效率和其他方面，为推动大陆人工智能科技成果产业化、促进数字经济和实体经济高质量发展搭建高水平交流合作平台。

在此，论坛组委会诚邀各界同仁莅临本届大会，开坛论道，共襄盛举，共话人工智能时代的新变革、新机遇、新挑战。

论坛日程安排

论坛组委会

Science Technology

论坛主席——徐迈

教育部长江学者特聘教授，中国图象图形学学会青工委副主任。近五年，以第一/通讯作者在IJCV、IEEE TPAMI、JSAC、TIP、TMI、JSTSP、TCSVT等国际顶级期刊及CVPR、ICCV、ECCV、AAAI、DCC、ACM MM等顶级会议上发表论文100余篇（均为SCI/EI检索），其中SCI检索60+篇（JCR1区50+篇，IEEE期刊论文40+篇）；近五年，谷歌引用5千余次，SCI他引千余次，多篇论文入选ESI高被引论文/热点论文。获IEEE国际会议/期刊最佳论文奖4项、提名奖2项。担任图像处理领域顶级期刊IEEE TIP编委（Associate Editor）、IEEE TMM编委（Associate Editor）、信号处理领域权威期刊IEEE J-STSP的首席客座编委（Lead Guest Editor）。作为负责人承担科研项目20余项，包括国家自然科学基金首批原创探索项目、优青项目、面上项目、青年项目，北京市杰青项目、军委科技委创新特区项目、863项目。曾入选教育部青年长江学者，获教育部霍英东基金、中国电子学会优秀科技工作者、中国计算机学会杰出演讲者荣誉。研究成果获2017年度中国人工智能学会技术发明一等奖（第二完成人）、2020年度教育部技术发明一等奖（第一完成人）、24届中国科协求是杰出青年成果转化奖。

2013年至今，承担本科生“数字图像处理”课程教学工作，获2021年度高校计算专业优秀教师奖； 2016年至今，承担研究生“机器学习概论”课程教学工作，获2021年度北京航空航天大学研究生课程卓越教学奖；2014年获北京航空航天大学“我爱我师”十佳教师奖。指导的本科生获北航“沈元金质奖章”2人（北航本科生最高荣誉），北航优秀本科毕业设计5人次。指导的博士生获北京市优秀博士论文奖、中国图象图形学学会优秀博士论文奖，指导的硕士生获中国电子学会优秀硕士论文奖3项（含提名奖1项）。指导的研究生获北航“研究生十佳”6人（北航研究生最高荣誉）、提名1人，国家奖学金10余人。

Science Technology

论坛主席——赵健

中国电信人工智能研究院多媒体认知学习实验室（EVOL Lab）负责人、青年科学家，西北工业大学光电与智能研究院研究员，博士毕业于新加坡国立大学，研究兴趣包括多媒体分析、临地安防、具身智能。

发表CCF-A类论文40余篇，一作代表作包括2篇T-PAMI（IF: 24.314）、3篇IJCV （IF: 13.369）等，第一发明人授权国家发明专利5项，技术成果应用于百度、蚂蚁金服、奇虎360等6个科技行业领军企业。入选了中国科协及北京市科协“青年人才托举工程”，主持JKW某特区项目、国家自然青年科学基金等项目6项。曾获2023 年度中国人工智能学会吴文俊人工智能优秀青年奖、2022 年度中国人工智能学会吴文俊人工智能自然科学奖一等奖（2/5）、CCF-A类会议ACM MM'18唯一最佳学生论文奖（一作，1/208），7次在国际重要科技赛事中夺冠。

担任北京图象图形学学会理事，国际知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》编委，《Pattern Recognition Letters》、《Electronics》特刊客座编辑，VALSE资深领域主席，ACM Multimedia 2021分论坛主席，CICAI 2022/2023领域主席，CCBR 2024论坛主席，中国人工智能学会/中国图象图形学学会高级会员，“挑战杯”大学生科技作品竞赛评委，中国人工智能大赛专家委委员等。

主页：https://zhaoj9014.github.io

特邀报告嘉宾

Science Technology

报告主题：面向通用视觉大模型的稀疏优化和泛化设计

主讲人：熊红凯

毕业于上海交通大学，现为上海交通大学电子信息与电气工程学院特聘教授、博士生导师。国家杰青、长江学者特聘教授、万人计划领军人才，是上海市优秀学术带头人；长期从事：信息论与编码、信号处理、机器学习研究，在包括Nature子刊、IEEE TPAMI 等SCI 期刊发表论文110 余篇，IEEE Transactions 汇刊长文 90余篇，顶级国际学术会议ICML、NeurIPS、CVPR等60余篇；先后获：上海市青年科技杰出贡献奖、上海市科技进步一等奖、中国电子学会自然科学一等奖、上海市技术发明奖一等奖等，曾获包括国际会议 ACM Multimedia 的 Top Paper Award等论文奖；培养学生获国家杰青、优青、青年长江、万人青年拔尖人才、洪堡学者等。

报告摘要

针对构建大模型的基本架构Transformer设计，讨论不同场景和几何结构数据的高效可泛化方法。首先针对可学习的相似性构图，进行稀疏优化和泛化适配，基于频域分析拓展至各向异性的可学习滤波，进一步形成一般化流形上信号的等变表示，形成统一框架。基于令牌（Token）和特征图的层级结构，稀疏优化渐进去除冗余；讨论模态混合适配的信息遗忘问题，根据可逆归一化流进行信息无损的适应性调整，构建多任务的动态模型拓扑。拓展Transformer结构，形成可学习的各向异性滤波，实现多尺度几何频率分析。对于一般化的流形上信号，进行动态路由可学习构图，设计规范等变网络，提升在不同局部坐标系、不同三维网格结构及分辨率下的泛化性能。

Science Technology

报告主题：视觉基础模型与OCR垂直大模型的一些思考

主讲人：金连文

华南理工大学二级教授，兼任广东省图象图形学会理事长、中国图象图形学学会（CSIG）常务理事、CSIG文档图像分析与识别专委会主任等职。主要研究领域为文字识别、文档图像理解、计算机视觉等，在重要学术期刊及国际会议上发表论文200余篇（其中SCI

Q1区+CCFA类论文100余篇），Google Scholar论文被引用数14000余次，H-Index 61。近4年连续入选“斯坦福大学全球前2％顶尖科学家”年度榜单。获省部级科技奖5项（其中一等奖2项，二等奖3项）；荣获CAAI、CIE、CSIG等全国性学会科技进步二等奖3项；指导学生参加CVPR、ICDAR、ICPR、ICFHR、PRCV等国际国内知名会议上的学术竞赛并荣获冠军20余次。

报告摘要

随着大语言模型（LLMs）的兴起，面向自然语言处理领域的通用人工智能（AGI）取得了重大突破，近年来视觉基础模型、多模态大模型也引起了广泛的研究关注并取得了快速发展，但针对光学文字识别（OCR）垂直领域的大模型研究工作报道还不多。本报告将简要回顾近年来多模态大模型、视觉基础模型和OCR垂直领域基础模型等相关代表性技术进展，介绍面向OCR的一些最新的基础大模型构建方法和技术路线，并对大模型时代OCR等垂直领域的发展趋势与未来研究方向进行讨论和展望。

Science Technology

报告主题：视觉表征模型的结构设计与物理启发

主讲人：叶齐祥

中国科学院大学特聘教授、国家杰出青年基金获得者、中科院卢嘉锡青年人才奖获得者、中国科学院优秀博士生导师、CVPR2023 、NeurIPS2023、ICLR2024 Area Chairs、国际期刊IEEE TITS，IEEE TCSVT编委。2013至2014年在美国马里兰大学先进计算机技术研究所（UMIACS）任访问助理教授，2016年Duke大学信息技术研究所(IID)访问学者。主要进行视觉表征学习与目标感知方向的研究，在CVPR, ICCV, NeurIPS等国际会议与TPAMI, TNNLS, TIP等期刊发表论文100余篇，Google引用13000余次。承担了自然基金重点项目、开发的高精度目标感知方法支撑了华为、航天等单位的应用系统。曾获ICCV2017、 CVPR2019、高分辨率对地观测重大专项遥感目标解译竞赛冠军、中国电子学会自然科学一等奖。培养多名博士生获中科院院长奖、中国科学院百篇优秀博士论文、博士后创新人才计划支持等。

报告摘要

分析了局部卷积运算与全局注意力运算的互补性及辩证关系，将局部特征与全局特征耦合形成Conformer网络结构，显著增强视觉表征能力，提升表征模型的性能下限。探讨了局部卷积运算造成的Mask Image Modeling （MIM）自监督学习信息泄露问题，提出了Token Merging操作，突破卷积或局部运算的局部约束，形成高效分层Transformer 表征(HiViT)与全预训练的Transformer 金字塔网络（iTPN）。在ImageNet分类任务上，iTPN-Base, iTPN-Large, iTPN-Huge 分别达到了88.0%，89.2%, 89.7%的Top-1分类精度。

系列研究从模型结构设计角度将视觉目标检测、分割等任务性能提升到了一个新高度。在模型结构涉及的基础上，探索了下一代基础模型，从热传导视角探索表征模型新源里，取得了初步效果，代码：github.com/pengzhiliang/Conformer、github.com/sunsmarterjie/iTPN、github.com/MzeroMiko/VMamba.

Science Technology

报告主题：从文本合成到视频合成的技术链路与瓶颈挑战

主讲人：吴飞

主要研究领域为人工智能、多媒体分析与检索。浙江大学计算机学院党委书记、浙江大学人工智能研究所所长。国家杰出青年基金获得者、国务院学位委员会智能科学与技术学科评议组成员，浙江大学第九届永平杰出教学贡献奖获得者，曾获2022年度教育部科技进步一等奖（排名第一）和中国电子学会2021年度科技进步一等奖（排名第一）。教育部计算机领域本科教育教学改革试点工作计划（101计划）核心课程《人工智能引论》负责人，开设国家级首批线上一流课程《人工智能：模型与算法》，著有《人工智能引论》、《人工智能导论：模型与算法》、《走进人工智能》和《人工智能初步》（高中信息技术）等教材和科普读物。

报告摘要

本报告将介绍谷歌公司2016年提出能够捕获文本单词之间局部/全局关联的自注意力神经网络transformer、谷歌公司2021年将transformer从文本领域拓展到图像领域的Vision transformer、Stability AI 公司2022年提出的以文生图Stable Diffusion、加州大学伯克利分校和纽约大学2023年提出图像合成技术Diffusion Transformers (DiTs)等核心算法发展脉络，揭示对合成内容中的最小单元进行有意义的关联组合的机理与天花板。

Science Technology

报告主题：AIGC FaceChain的应用与创新

主讲人：孙佰贵

2014浙江大学CAD&CG国家重点实验室计算机硕士毕业，导师为章国锋、鲍虎军老师。同年加入阿里巴巴，10年AI经验，一直从事深度学习研发工作。3年淘宝技术部&搜索事业部，6年达摩院，目前在通义实验室负责人物AIGC，曾获得淘宝技术部最佳新人，阿里巴巴开源先锋人物等奖项。参与研发的大规模应用代表工作有：拍立淘、图镜/云盾、DeepCTR、钉钉考勤机、阿里云人脸API版块、FaceChain等。曾获得WiderFace检测6项冠军，6项国内外开源项目/个人奖项。目前发表合作顶会/刊论文26+篇，开源Star 8.1K+。

报告摘要

在AIGC技术浪潮推动下，图像内容生成在C端和B端展现出了广阔的应用潜力。本次报告介绍facechain在人物写真、虚拟试衣、人物视频等热门应用场景的攻关成果。facechain已在飞猪数字旅拍、通义万相写真馆等多个应用中成功落地，其开放API具有开箱即用、自定义模板、灵活配置风格以及免训练技术路径等优势。同时facechain团队积极推进开源社区建设，目前在GitHub上收获超过8.1K Star，已荣获6项国内外开源项目和个人奖项，积极践行公益以及校园教育等社会责任，获得了广泛关注。

Science Technology

报告主题：面向视觉语义重构的表征与压缩方法

主讲人：李胜曦

北京航空航天大学电子信息工程学院教授，博士毕业于伦敦帝国理工，研究方向为智能信号处理与概率生成模型。长期致力于图像信号建模、表征和压缩的理论及应用技术研究，在IEEE TPAMI、TNNLS等IEEE期刊以及NeurIPS、CVPR等CCF会议共计发表论文30余篇，撰写书籍共计2部。作为首席客座编委组织IEEE TCSVT生成式人工智能特刊：AIGC for Multimedia，相关成果贡献10余项MPEG标准组织提案，在国际标准化ISO、ITU组织多项最新标准中得到应用。获中国优秀自费留学生奖、帝国理工Lee Family奖、中国电子协会优秀硕士论文提名等奖励。入选2022年国家级海外青年人才项目。

报告摘要

大数据、大模型时代下，智能算法的不断进步常伴随其表征能力的稳步提升，而概率生成模型以无监督方式对信号进行概率表征，以其概率释义等优势在人工智能中扮演着极为关键的角色。本次报告围绕面向视觉语义重构的生成对抗网络表征与可逆化方法，分析生成对抗网络的表征性能，以特征函数为统计度量，进而介绍面向语义重构的生成对抗网络，其理论完备性可确保语义表征的完备性。进一步地，构建生成对抗网络的可逆化方法，大幅提升语义表征的准确性与可靠性。

Science Technology

报告主题：大语言模型在网络安全领域的落地实践和研究

主讲人：訾然

工学博士/博士后，深信服安全GPT业务主管，深信服安全解决方案首席专家，负责深信服安全GPT、安全解决方案规划运营工作。主导和参与多个零信任、大数据安全、边缘计算安全国家和行业标准，牵头支撑多个省部级、央企集团数据安全、零信任、安全运营项目。发表国际顶级期刊、会议论文10篇，研究方向：AI安全，网络安全架构，零信任安全，数据安全，云安全。

报告摘要

大语言模型在各领域受到广泛关注。网络安全领域，被认为非常适合大语言模型的落地并发挥效果。本次报告介绍国内外网络安全领域落地大语言模型的最新进展和落地实践，包括攻击检测、威胁研判、数据安全等。并探讨在RAG、超长上下文、AI agent等大语言模型新技术快速发展的当下，安全领域的大语言模型会如何发展。

Science Technology

报告主题：人工智能软硬件一体化

主讲人：赵斌

西北工业大学副教授，上海人工智能实验室青年科学家。从事人工智能软硬件一体化研究，包括前端探测设备、视觉感知方法和智能移动平台，以推动人工智能技术的应用落地。在TPAMI/Artificial Intelligence/TIP/Optics Express/CVPR/ICCV/NeurIPS/ICML/ICRA/CoRL等发表学术论文50余篇，申请国家发明专利10余项。获中国科协青年人才托举工程，中国航空学会科技进步一等奖，中国光学工程学会优博，陕西省优博。相关成果应用于国家航空航天项目中，公开技术被The SUN、Asia Times、人民日报、新华网等国内外媒体报道。

报告摘要

生命起源以来，生物智能的进化过程不仅体现在思维方式的演进，还包括体型和四肢等身体结构的转变。人工智能是参考生物智能所形成的系列技术，其理论发展和技术落地需要软硬件的协同。在这一思想的驱使下，有必要关注人工智能软硬件一体化研究，推动人工智能应用落地。本报告凝练生物智能“思维计算-实体控制-环境感知”的三元交互模式，重点介绍大模型驱动具身智能体的相关研究，包括高层语义理解、自身技能认知与复杂任务执行等技术，为大模型时代的人工智能软硬件发展提供新思路。

Science Technology

圆桌对话嘉宾：山世光

中国科学院计算技术研究所研究员/博导，智能信息处理重点实验室主任，智能算法安全重点实验室（中国科学院）副主任，IEEE Fellow。研究领域为计算机视觉、模式识别和机器学习。已发表论文400余篇，其中CCF A类论文180余篇，论文被谷歌学术引用3.6万余次。研究成果获2005年度国家科技进步二等奖、2015年度国家自然科学二等奖、2021年度北京市科技进步二等奖、2022年度中国图象图形学学会自然科学一等奖。他是国家特支计划领军人才，基金委优青，国务院特殊津贴专家，北京市科技新星，人社部国家百千万人才工程有突出贡献中青年专家，CCF青年科学家奖获得者，中科院青促会优秀会员，腾讯科学探索奖获得者。他是中国人工智能学会(CAAI)模式识别专委会副主任，CAAI情感智能专委会副主任，中国计算机学会(CCF)青年工作委员会副主任，CCF计算机视觉专委会常务委员。

圆桌对话主题及嘉宾

对话主题

主持人：赵健中国电信人工智能研究院青年科学家、西北工业大学研究员

对话主题：1.大模型对于视觉研究的影响？

2.大模型会不会主导一切？

3.通用人工智能的实现方式？专用人工智能与通用人工智能如何结合？

对话嘉宾：赵斌西北工业大学副教授、上海人工智能实验室青年科学家

孙佰贵阿里巴巴通义实验室人物AIGC负责人

金连文华南理工大学二级教授

山世光中国科学院计算技术研究所研究员/实验室主任

訾然深信服科技股份有限公司安全GPT业务主管

Science Technology

大模型与通用人工智能专题论坛

欢迎报名参会

CAIIAC丨大模型与通用人工智能专题论坛重磅来袭！

继续阅读

华为开发者大会：HarmonyOS Next系统、盘古5.0大模型等技术亮相

北约未来二十年：人工智能技术的战略演进与前瞻

大模型在持续学习领域的最新研究进展与综述

【好文转发】大模型为什么能把业务系统拉通?

顶尖龙头+算力+人工智能+存储+机器人+半导体+短剧+预制菜

AIGC如何帮助数字内容的生产者降本增效在数字时代，内容生产者的效率和成本控制至关重要。AIGC（人工智能生成内容）技术

阿里通义Qwen2拿下大模型最新测评全球开源第一周鸿祎发文祝贺：未来开源模式一定会超过闭源

AI手机风口下，字节选择做手机厂商的大模型供应商

AI 数据建模：人工智能如何重塑人类进步的未来（4/5）

人工智能概念股，今年以来涨跌幅排名：

拙文《与何祚庥院士讨论大型粒子对撞机问题》发表之后，何祚庥院士随即给我留言进一步强调“@刘长玉。最为关键的问题，是不是"

一个生产动画效果的文生图模型：AnimateDiff

英伟达开源最强通用模型Nemotron-4 340B：开启AI合成数据新纪元！

探索文字魅力：从初识到共鸣，人工智能助手的心路历程

高效组织团队会议，关键在于会前明确目标、准备充分；会中引导讨论、聚焦核心；会后总结成果、跟踪行动。这三点构成了会议成功的

中国AI大模型平台排行榜 | 5月