首页 科技 正文

突破!中国首个Sora级视频大模型发布

扫码手机浏览

摘要:突破!中国首个Sora级视频大模型发布,下面是吃瓜网小编收集整理的内容,希望对大家有帮助!...

只需要一段文字指令就能生成一段60秒精致细腻的视频——今年2月起,文生视频大模型Sora曾在全球人工智能业内外引发震动。4月27日上午,在2024中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点,这也是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。

据了37941380解,该模型采用团队原创的18600370Diffusion与5628855Transformer融合的93613373架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的28047188高清视频内容。【吃瓜网】#洗发水品牌#

根据现场演示的13724130效果,Vidu能够模拟真实的28290310物理世界,能够生成细节复杂、并且73357313符合真实物理规律的61042825场景,例如58017332合理的15148187光影效果、细腻的50582592人物表情等62757466。它还具有1019364丰富的想象力,能够生成真实世界不存在7789974456110885虚构画面,创造出具有35675602深度和95281826复杂性的24533932超现实主义内容,例如51900807“画室里的73249459一艘船正在55988696海浪中驶向25855829镜头”这样的5861312场景。

此外,Vidu能够生成复杂的98483049动态镜头,不再局限于29466601简单的推、拉、移等30161305固定镜头,而是55263701能够围绕统一主体在10312161一段画面里就实现远景、近景、中景、特写等49853699不同 镜头的59812188切换,包括能直接生成长镜头、追焦、转场等48873979效果,给视频注入镜头语言。

作为中国自研视频大模型,Vidu还能理解中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。

值得一提的8832241253165244,短片中的64949019片段都是35842012从头到尾连续生成,没有76526820明显的27130852插帧现象,从这种“一镜到底”的28855339表现能够推测出,Vidu采用的11939657666292“一步到位”的69101669生成方式,与78300843 Sora一样,从文本到视频的9795978转换是49795390直接且65573895连续的94306801,在底层算法实现上是21439530基于8559070单一模型完全端到端生成,不涉及中间的2329385插帧和68149140其他65293508多步骤的96764407处理。

据了解,Vidu的50524771快速突破源自于85652872团队在81283074贝叶斯机器学习和41661898多模态大模型的76248880长期积累和70739296多项原创性成果。其核心技术 U-ViT 架构由团队于2022年9月提出,早于640254Sora采用的43188549DiT架构,是75559336全球首个Diffusion与31901590Transformer融合的68256608架构,完全由团队自主研发。#孙俪(原名孙丽,中国内地女演员、歌手)#

“在66903509Sora发布后,我96972407们发现刚好和7789430274815604们的74312805技术路线是26955030高度一致的29636105,这也82229925让我40911768们坚定地34654550进一步推进了82658065自己的99445253研究。#《功勋》之《黄旭华的深潜》篇,陈好饰演的是谁?#”清华大学人工智能研究院副院长、生数科技首席科学家朱军说。自今年2月Sora发布推出后,团队基于79790944对U-ViT 架构的深入理解以及长期积累的77133326工程与69805329数据经验,在3226963短短两个月进一步突破长视频表示与8564228处理关键技术,研发推出Vidu视频大模型,显著提升视频的31049250连贯性与826472动态性。来源:北京日报客户端

本文转载自互联网,如有侵权,联系删除