王斌:AI创造视觉智能新图景丨2025科创大会
编者按:
会上,大华股份研发中心智能计算产品线总监王斌以《大华星汉大模型:AI创造视觉智能新图景》为主题发表演讲。
以下为演讲实录,略有删节(本文标题、小标题为编者所加):

王斌 大华股份研发中心智能计算产品线总监
这两年,AI科技圈最火热的词莫过于AI和大模型。根据相关算力报告,中国智能算力规模保持高速增长,预计到2028年,整个中国的算力规模将达到2781.9 EFLOPS,复合增长率高达46.2%。模型能力快速迭代,开源生态不断完善,算力和模型已成为AI发展最重要的两大因素。
整体发展呈现四个趋势:第一,算力从云端逐渐向端侧渗透,模型越来越小型化,能在摄像头边缘或更多终端设备部署;第二,规模效应推动AI成本降低,实现AI普惠大众,AI发展也使其成本逐步降低;第三,技术持续创新,性能不断提升,硬件和模型性能都在不断发展;第四,开源模型加速发展,追赶甚至比肩闭源模型。
大模型发展也面临明显局限,如外部知识依赖、多模态能力瓶颈、算力成本偏高、幻觉问题等。
AI创新与全生态体系
大华股份在AI领域始终坚持投入与创新。随着AI发展,大华AI也在持续进步。2015年,我们基于深度学习技术发布智能交通一体机;2018年,发布开放平台,加速AI创新和应用落地。2021年,我们投入专项经费扩建算力中心,深入研究大模型技术。2023年,在深圳安防展上,我们发布了大华自研的星汉大模型。2025年对其全面升级,推出星汉大模型2.0。
大华科研实力强大,拥有五大基础技术研究院,分别研究视觉、硬件、软件、AI、大数据和物联网等基础领域。先进技术研究院是我们在AI领域的专门研究团队,有超过1000名人工智能研发人员,占比超98%,主要来自985和211高校。我们在人工智能各领域斩获重要奖项,包括参与国家及省级专项、制定国家及行业标准、获得发明专利、核心学术论文及全球AI竞赛获奖。星汉大模型也通过了信通院和网信办的测试认证。
面对蓬勃发展的AI趋势,大华构建全生态体系,打造差异化优势和竞争力。从下到上分为六个层次:
算力层:拥有云边端完整算力硬件体系,包括云中心智能服务器、边缘AI盒子、端侧摄像头和物联采集设备;建立云边端协同的算力网络。
基模层:坚持开闭源结合路线,闭源有自研星汉大模型,以视觉解析为核心,融合多模态能力;开源上吸取业界优秀经验,如通义千问、DeepSeek等大模型,实现开闭源优势互补。
仓库引擎层:模型仓库统一管理所有模型,视图引擎统一管理和协同调度云边端算力。
工具层:编排工具提供算法和策略编排能力,适应定制化场景;训练工具提供轻量化和专业训练模式,面向普通用户和专业开发者。
策略组件层:沉淀行业通用策略,加速AI应用开发,如大小模型协同、大模型二次过滤策略等。
业务层:大华在各行各业有深厚业务积累,通过业务层将AI技术转化为客户核心业务价值。
以视觉解析为核心打造三大系列大模型
星汉大模型以视觉解析为核心,以行业业务为驱动,融合多模态能力,分为V、M和L三类行业大模型,分别对应视觉大模型、多模态大模型和语言大模型,构建行业知识体,重塑行业应用。
三大系列能力介绍,首先是星汉视觉大模型V系列,通过四个场景进行举例:
火焰分析场景:传统小模型技术易受环境因素干扰,如灯光照射、夕阳等产生误报。大模型技术基于全图语义理解,极大提高准确率,误报率降低30%。
人群密度算法:在景区及重点场景广泛应用。大模型技术将识别半径扩到2.5倍,识别面积扩大5倍以上,通过多尺度可变形注意力,小目标识别准确率提升60%,达到90%以上,超密度和低光照情况下整体识别率超20%,准确率达95%左右,支持3200万分辨率像素下10×10像素小目标准确检测。
电力场景:开发表计、缺陷等70余种电力巡检大模型算法,实战中准确率均有不同程度提升。
落水检测:结合3D神经网络大模型技术,融合时空上下文信息,学习水面人体动作、波纹变化状态,精准识别复杂场景落水行为,有效抑制误报,准确率提升15%以上。
多模态大模型M系列基于图文融合能力,推出以问搜图、以图搜图、文搜视频三大应用,实现跨模态组合检索。文字搜图通过语义快速进行图像检索;以图搜图通过快速框选局部特征进行检索,如特征明显的双肩包、背包、LOGO等;视频片段理解提取关键视频要素,实现快速文本检索。
最后是大语言模型L系列:通过语言交互实现业务快速调度与数据分析,融合M和V系列联合使用构建新交互方式。如某员工丢失外卖,通过语音输入“请帮我打开3月27日下午5点左右,在外卖柜附近的录像”,系统毫秒级响应完成业务搜索。
同时,我们将数字孪生和大模型技术结合,辅以语音唤醒和语音识别,实现拟人化人机交互,构建灵活应用场景。通过多种技术的深度结合,让感知决策可视化。
• 更多关于科创大会的精彩资讯,将通过南方周末各渠道陆续发布,敬请关注。