中国版GPT-4o炸场:国内首个流式多模态交互模型,现场实时且丝滑
没等到GPT-4o,商汤先把《Her》给发布出来了!
就在刚刚,商汤直接在现场来了个炸裂的Live Show,话不多说,直接看效果:
不仅声音非常拟人(观众直呼好磁性),而且还是实时、随时可以打断的那种!
它宛如被安上了一对儿眼睛,可以做到精准无误的所见即所得。
就连手绘的粗糙的简笔画,AI也能俏皮地跟人类做互动:
一波Live Show秀下来,引得观众掌声连连、“哇”声一片。
这就是商汤发布的国内首个流式原生多模态交互模型——6000亿参数日日新5.5系列中的5o所达到的效果。
据了解,这是一种全新的AI交互模式,把文本、声音、图像还有视频等模态全都囊括到了一起,可以让AI跟人们交流的时候变得更加生动丰富。
可以说是真·电影走进现实了。
而且商汤CEO徐立现场表示,很快就可以用上了!
但新的AI交互模型,也还仅仅是商汤在这次发布中的一隅。
纵观整场活动,商汤可以说是围绕着日日新5.5,把多模态这事给玩儿得66的。
各位看官,咱们继续往下瞧。
计算机巨佬们“活”了起来
你没看错,商汤用新AI搞的另一个花活儿,就是“复活”了图灵、冯诺依曼等计算机巨佬们。
并且还致敬了已故的人工智能科学家,商汤科技创始人汤晓鸥老师,徐立表示:
致敬我们的创始人汤晓鸥教授对人工智能的执着,以及对于人才的培养,奠定了我们今天可以站在这里跟大家分享我们关于人工智能的一些想法。
请看VCR:
这个新AI,名叫Vimi,是基于日日新5.5能力打造的首个可控人物视频生成大模型。
而且是只需要一张任意风格照片就能搞定、普通用户都可以用、长达1分钟的那种哦~
要知道,“人物可控”这事一直是用大模型搞生成的一道难题,就连Sora在内大模型也面临无法精准控制动作、连续性不稳定(突然变脸)等问题。
但Vimi就不一样了,它不仅能够精确地控制人物的面部表情,还能在半身像的范围内调节人物的自然姿态。
并且也能够自动生成与人物相匹配的头发、服装以及背景的变化;时长方面更是达到了分钟级别。
由此,以后要是想打造一个自己的大片儿,例如冰雪女王,那就是一张照片的事儿了:
以下视频来源于Vimi相机
以为这就完了?No,No,No。
你的表情包又要变丰富了。
总而言之,Vimi的出现可以说是利好视频创作者,让他们有了另一个高质量AI工具的选择。