50%本钱节约、爆款背面3~5倍推理时延下降、使用设备100%的爆款背面QPS(每秒请求数)提高!
由主意流打造的使用设备“造梦次元” ,是爆款背面由多模态。AI 。使用设备驱动的爆款背面新一代内容渠道,得益于商汤大设备AIGC解决方案从算力到模型的使用设备端到端支撑,经过算力和模型 、爆款背面模型和运用之间的使用设备严密协同,既发明了最佳的爆款背面用户体会 ,又获得了最大化的使用设备本钱效益,现在已成为一款日均活泼互动时刻超越100分钟的爆款背面现象级运用。
主意流合伙人、使用设备Studio负责人张鸿表明 :“商汤大设备展现出三重中心优势:一是爆款背面算力与模型的深度协同 ,完成最高效的资源运用;二是针对文本、语音、图画等不同模态的协同 ,构建了流通天然的交互体会;三是支撑开源模型的完善生态,供给了多样化模型挑选。这种多维度协同优势助力咱们完成了‘算力、模型、运用’三位一体的全链条优化 ,推进技能效能向商业价值的高效转化。”。
日均6000万次调用 、千亿token耗费,带来三大「生计应战」 。
依据对用户需求的洞悉 ,主意流经过技能创新直击AI互动运用普遍存在的“沉溺感缺乏”和“门槛过高”两大中心问题。
例如 ,经过供给文字 、语音 、文图结合的多模态交互,让用户与AI的互动体会趋近实在人际沟通 。此外,主意流还供给丰厚的创造东西 ,用户只需套用相关模板 ,就可快速建立完好互动内容 ,有用下降了创造门槛。
造梦次元每日均匀模型调用量高达6000多万次 ,一天耗费的token达千亿等级 。在如此巨大的规划下,任何卡顿、宕机 、犯错都会导致严峻的用户丢失;任何因模型才能缺乏形成的体会欠安,都会影响产品口碑;任何细小的资源搁置 ,都会累计成巨大的本钱开支。摆在主意流面前的“生计应战”,首要体现在三个层面:
2倍峰谷差的算力弹性战:造梦次元的渠道流量有着明显的潮汐特征 ,周末和节假日顶峰时段的流量可达低谷时期2倍 ,对基础设施算力资源有很强的弹性弹性需求。
推理时延的2秒生死线:虚拟人物互动场景对时延极为灵敏,要保证根本流通的交互体会,模型推理时延需安稳控制在2秒以内。
模型迭代的安稳性应战 :主意流采用了许多开源模型 ,需求跟从社区节奏进行频频晋级乃至替换