近日,在 2024 世界移动通信大会(MWC 2024)期间,慧鲤科技与联发科技再次联袂推出生成式 AI 在端侧的创新应用。基于联发科技天玑 9300 集成的新一代 AI 处理器和慧鲤科技 LoRA 融合的技术整合,用户在端侧设备上录制影像时,可以实时生成不同动画风格的视频。这也是业内首个基于 LoRA 融合技术在端侧实时生成视频的应用,为端侧生成式 AI 落地进一步刷新了应用边界。
端侧处理,秒速生成,慧鲤LoRA融合技术实时生成趣味视频
作为联发科技在生成式 AI 技术领域的重要合作伙伴,慧鲤科技结合联发科技生成式 AI 模型端侧「技能扩充」技术 NeuroPilot Fusion,在基础模型上持续扩展 AI 应用和功能,并于移动终端装置成功实现多种风格化视频的实时生成能力,开辟出一系列手机 AI 应用新玩法。
在风格化基础模型以及风格 LoRA 模型训练过程中,慧鲤通过一致性蒸馏算法大幅减少了扩散模型的运行步数,并依托联发科技 NeuroPilot 框架,以无分类器指导蒸馏进一步降低扩散模型的单步耗时。在保证输出质量的同时,慧鲤实现了手机端接近 1 帧/s 在线风格化生成效果,使生成体验更加自然流畅。
在现场体验中,用户可以通过该功能在手机拍摄过程中精准识别人物影像,并转化为各种风格的趣味视频。除此之外,模型还可以将画面中的背景、人物手持的物品等,稳定细致地转化为与画风调性相契合的背景和道具,让整体视频效果更自然协调。例如,用户手持圆盘形物品拍摄视频时,在油画风格的视频中,圆盘被识别并再创作为调色盘,而在赛博朋克风格中,圆盘则被定义并展示为一个盾牌。
以往在手机端的应用中,由于 LoRA 和基础模型绑定,切换不同艺术风格的 LoRA 时需要替换整个模型才能实现驱动,在实际视频拍摄中难以实时切换及加载。当应用中包含多种风格 LoRA 时,则需要占用大量内存,导致安装包对内存的要求为 GB 级别。现在,慧鲤结合 NeuroPilot 框架的 lora fusion 功能,将自主训练的多种艺术风格 LoRA 模型尺寸压缩至 10MB 级别,不同 LoRA 配合单个基础大模型使用,可以让用户在极短时间内随意切换,运行处理速度更加快捷,充分满足端侧 AI 用户的个性化体验需求。
激活生成式AI创作热度,抢滩AI自媒体时代
近年来,生成式 AI 在内容创作赛道的持续火热,内容创作者和消费者都在迫切呼唤更新颖、更前沿的应用体验。慧鲤端侧 LoRA 融合的应用成果,在「人人都是自媒体」的时代开启了更具想象力的创作空间。
在抖音、小红书等内容社交平台中,此前的手机拍摄创作玩法,主要以美颜滤镜、添加挂件等为主。端侧 LoRA 融合带来的视频生成新玩法,为用户的内容灵感、拍摄风格提供了更多新选项,并极大提升创作效率。基于实时视频生成功能,用户在实时拍摄中可自由选择赛博朋克、水彩、油画、水墨、卡通等多种画风,拍摄结束后视频即时生成,元素丰富、高质高效,体验感极佳。
另外,在文旅等落地场景中,手机拍摄实时生成视频的应用前景更为广泛。创作者打卡过程中,仅需实地录制一个画面,即可通过该功能选项创作不同风格作品,任意穿越各种画风的异次元世界,为用户带来更多充满创意的沉浸式体验。
伴随着端侧生成式 AI 的发展,移动端 AI 赛道潜力正在充分显现。LoRA 融合等技术的应用升级,将进一步挖掘 AI 在手机等端侧设备的应用潜力,并赋能各领域赛道选手加速入场,开拓更大的参与空间。作为大模型时代的探索家和建设者,慧鲤科技将继续加码技术赋能,为伙伴和用户带来更多前沿 AI 应用体验。