近期,36氪在北京昌大召开“WISE2024 贸易之王”年夜会,吸引各行各业精英齐聚,共探艰巨却准确之事。北京电子数智科技有限责任公司(如下简称“北电数智”)应邀出席,其CMO兼战略与市场卖力人杨震发表《“国产算力 PoC 平台”,以场景测评寻觅算力最优解》主题演讲,于年夜会上分享了北电数智对于在国产算力运用的深刻看法与前沿摸索结果,为行业成长提供了极具价值的思绪与标的目的。

OpenAI o1发布后,强化进修晋升年夜模子智力的推理模子线路得到了业内承认,不少公司纷纷发布推理模子。而推理模子虽信仰以长思索时间提高智能程度,但现实运用顶用户仍注重相应速率快、推理成本低、吞吐能力长这些指标。且推理模子看重垂直场景落地,存于财产链断层,模子方与算力供应需按场景体系化适配痛点。北电数智首个国产算力PoC平台可助力推理模子落地,提供低成本算力,帮年夜模子适配国产芯片晋升推理效果、加快推理速率。
国产算力PoC平台构建在北电数智进步前辈计较迭代验证平台(即进步・AI 异构计较平台)之上,座落在由北电数智兼顾计划设置装备摆设、设计运营的北京数字经济算力中央。国产算力PoC平台可针对于差别厂家的算力芯片,实行算力纳管与同一调理,依据各种模子使命的特征差异,精准调配相宜的算力资源。同时,借助构建富厚的算子库、打造通讯库等手腕,有力鞭策模子练习加快进程,为年夜模子供应兼具高性价比与高品质的算力撑持,使其以更低成本、更高效率开展运算,助力年夜模子落地。
当模子与行业、场景深切联合,定制化的主要性日趋凸显。北电数智推出的国产算力PoC平台可以或许为用户于垂直场景下提供算力集群的评测、适配以和验证办事,协助算力需求方探访出最为相宜的“软件+硬件”组合方案,以此晋升模子训推算力的效率,减少训推所需时间与成本,为用户创作发明更优质的利用体验。
国产算力PoC平台年夜幅晋升国产芯片使用率及集群使用率。借助调理、算法以和算子等多层面优化,国产算力PoC平台可年夜幅改善国产集群的训推效能,混训集群的练习结果可以或许到达单一集群综合练习效果的1.2倍,于举行混推操作时使平均MFU(模子对于算力的使用率)从30%跃升至60%。
颠末国产算力PoC平台多层优化后,反应于模子天生速率上体现为基在国产芯片的模子首字延迟至多可优化10倍,解码延迟可达10倍优化,能更迅速地完成数据解析事情,推理吞吐量最高可实现80倍的晋升。象征着于单元时间内可以或许处置惩罚更多的数据,进而更快速地相应模子推理需求,有用晋升用户体验并提高数据处置惩罚效率。

为进一步晋升运行效率并勤俭资源,北电数智于集群中应用了一系列推理优化计谋。例如,依附scoping to zero特征可以或许有用缩短冷启动时长;于集群推理环节,撑持Continuous batch、Page attention、CPU / GPU 异步等推理计谋,提高GPU使用率。
当前,北电数智的国产算力PoC平台已经经实现了对于十多种海内知名算力芯片的评测撑持以和与二十多款主流模子的适配。北电数智的国产算力PoC平台于当下AI成长进程中已经彰显出要害价值与强盛竞争力。其依附精准的算力纳管与调理、卓着的模子适配能力以和全方位的优化举措,有用解决了推理模子于落地运用时面对的诸多灾题,极年夜地晋升了国产芯片使用率与集群效能,降低了模子训推成本并显著提高了运行效率。
身为肩负“设置装备摆设数字中国”任务的AI原生国企,北电数智始终对峙做难而准确的事,致力在强化行业间的生态联动,买通模子、场景与芯片于贸易运营和研发立异层面的闭环链路。于人工智能财产蓬勃成长的海潮中,北电数智踊跃结构,经由过程连续优化国产算力PoC平台整合行业资源,不仅为财产链上下流企业提供了高效的互助桥梁,也致力在晋升我国人工智能财产自立化立异能力,为国度科技战略推进做出立异树模。
-球盟会