智子芯元30分钟破解算子之困

B.news
2026-02-03 17:17:12
智子芯元“高性能算子自动发现与优化”技术,30分钟完成大模型国产芯片适配,推理吞吐量提升40%,加速国产AI算力生态破局。

智子芯元30分钟破解算子之困

(图片来源:公众号智子芯元)



国产AI芯片正面临一个共同的困境:有算力,没算子,就像有好锅却缺了铲子,硬菜根本炒不出来。不少数据中心采购了昂贵的国产芯片,却发现实际运行效率连理论峰值的10%都不到,相当于花大价钱买了辆法拉利,却只能在胡同里溜达。


深圳星河WORLD园区里,一家叫智子芯元的初创团队决定啃下这块硬骨头。他们琢磨出一套"AI+数学"的办法,让大模型自己去找最优的算子,而不是靠工程师一个个去猜、一个个去调。

智子芯元30分钟破解算子之困

(图片来源:公众号智子芯元)


这套"高性能算子自动发现与优化"技术一出手就让人眼前一亮:Qwen3-14B大模型在国产芯片上的适配时间,从原来的好几天直接砍到30分钟。这相当于以前一个团队干几周的活,现在机器边喝咖啡边就干完了,而且推理速度还比社区最佳方案快了四成。


更令人惊叹的是,他们自动生成的算子在贝塞尔函数计算中实现了精度显著提升,在结构化矩阵乘法上还发现了人类专家未能突破的新算法。这支团队的底色很硬——前华为2012实验室的技术领军、前一线大模型公司CTO、还有一堆国际数学和计算机竞赛的金牌选手。


成立短短几个月,智子芯元的技术就已经在实战中展现出惊人威力。1月27日DeepSeek-OCR-2模型刚发布,他们的KernelCAT工具仅用38分钟就完成了在华为昇腾平台上的自动化部署,而且推理吞吐量达到550.45 tokens/s,加速效果高达35倍。


智子芯元给自己起了个很朴素的角色——"修桥的"。一边是生态还在早期的国产芯片,一边是已经跑起来、嗷嗷待哺的AI应用,他们负责把中间这条路铺平、铺稳。罗智泉院士亲自担任首席技术顾问,让这个"造桥团队"在数学和AI的结合上有了更深的底气。


龙岗区这两年在AI这块下了血本,从研发空间到政策补贴,就是想让这样的硬核技术能从实验室走到产业里。智子芯元就是从香港中文大学(深圳)的创新土壤里长出来,在龙岗的产业环境里扎下根的典型案例。


当智子芯元的创始人丁添在屏幕上看着自动优化的进度条飞跑时,他心里想的不是技术有多牛,而是这座无形的桥每延伸一段,国产AI算力的"天堑"就变通途一分。桥修通了,好东西才能跑得起来,整个生态才会真正活起来。(来源:深圳特区报、投中网、昇腾CANN官方)


编辑:Laverne