开云体育这段视频中天然有一个小污点（＂摸＂字多了一笔）-开云官网切尔西赞助商(2025已更新(最新/官方/入口)

"汉字"这个难关，今天终于被AI 视频生成给拿下了！

话未几说，咱们成功先来看消失：

这个"福"字，就这么被 AI 水汪汪地一笔一划滴了出来。

再如底下这个例子，咱们的 Prompt 是：

有汉字"量子位"，古风。

但这么照旧略显单调，咱们上一下难度：

赛博一又克立场城市夜景，镜头视角是车辆在马路上行驶，对面大楼楼体有强大的 LED 告白牌，上头写着"量子位"三个字。

好的，咱们也算是打了一波赛博告白了。

那么让字数再多少许，AI 是否能 hold 住呢？

咱们成功来挑战一下：

水彩透叠插画立场，三只不同边幅的可人小猫咪手举着一条超大的鱼，从右边走到左边。它们区分穿戴粉色、蓝色和黄色的小背心，眼睛圆圆的，情绪呆萌。充满童趣，笔触高雅温馨，简笔画立场。纯白布景上平安披涌现来几个字体，写着："摸鱼一天兴奋浩瀚"。

不错看到，这段视频中天然有一个小污点（"摸"字多了一笔），但举座是把 Prompt 中的本色给规复了出来。

天然，复杂的汉字都能处分，这个 AI 天然也不错生成英文单词，而且照旧带"花活儿"的那种（底下还有汉文版）：

那么，这到底是何许 AI 是也？

不卖关子，它就是阿里通义万相刚刚升级的 2 个新版块视频生成模子：

通义万相 2.1 极速版：大要让 AI 高效、快速地生成视频；

通义万相 2.1 专科版：更阻止 AI 视频生成的质地。

在举座体验事后，咱们大要显着感受到模子举座性能有了大幅的进步。

尤其是在处理复杂通顺、规复真正物理司法、进步影视质感以及优化提醒谨守方面。

据了解，新版通义万相也曾以84.70%的收获登上巨擘评测集 VBench 榜首的位置，一皆高出 Gen3、Pika、CausVid 等国表里视频生成模子。

不外有一说一，能生成汉字，也还仅仅通义万相智商升级的一隅。

接下来，咱们就延续来看下它在视频生成中的更多智商。

《滕王阁序》都能会通

值得一提的是，这个新升级的模子并不是 PPT 哦，是也曾上线了的那种 ~

当今东说念主东说念主都不错在线免费体验了，进口和模子采用如下图所示：

要是你是建造者或者企业，还不错在阿里云百真金不怕火上调用 API，打造我方的专属应用。

鉴于此前大部分 AI 视频生成，在处理复杂东说念主物四肢时，时常会出现转个身就鬼畜的兴奋。

咱们就成功来上个难度，超复杂四肢——Breaking。

请听 Prompt：

在室内，镜头平拍一个异邦须眉跳轰隆舞的全景，须眉身穿灰色的上衣和绿色的裤子，镜头随着须眉的四肢而移动，须眉在舞台上进行一系列的翻腾和旋动掸作，布景中不错看到不雅众席上的不雅众和一些粗率的舞台灯光，但焦点永恒保持在舞者的四肢上。

不错看到，这段 AI 视频生成一改以往的鬼畜，在如此多且复杂的四肢情况下，东说念主物消失依旧是稳稳的。

再来看下跳水通顺：

细节如脚背，亦然拿合手的很到位了。

除了在连气儿复杂四肢发达沉稳消失以外，规复真正物理司法，亦然评判 AI 视频生成消失的关节想法之一。

咱们不妨让《滕王阁序》来磨真金不怕火一番：

落霞与孤鹜皆飞，秋水共长天一色。

不出丑出，通义万相新版块曲直常好地会通了这句诗的境界。

而在靠近像切肉这么的四肢时，规复物理司法的体现会愈加显着：

切肉时肉块的天然分离、刀面上的镜像、肉底部的油……细节如此，细节如此。

在真正性的基础之上，若思用 AI 来打造质地更高的视频消失，那么运镜就是不行或缺的技能之一。

这少许，通义万相亦然不错扫数 hold 住。

举例狐大仙蹦迪，咱们不错来个给氛围狠狠加分的运镜：

像电影场景里跑车在山谷里驰骋的画面，随着汽车的轨迹加复杂运镜亦然不错有的：

除此以外，通义万相还有个特色就是不错拿合手各样立场的类型，颇有种影视级的嗅觉。

举例中叶纪真东说念主写实风：

再如卡通动画：

而且生成的视频尺寸亦然采用的哦：

那么接下来的一个问题就是：

若何作念到的？

举座来看，此次通义万相在时刻方面采用了三步走的改动道路。

当先，是VAE 与 DiT 架构协同发力。

视频 VAE 不错看作念一位"压缩人人"，擅长将视频中的海量信息进行高效压缩，索要出最为关节的特征。

它通过将视频拆分为些许块（Chunk），并缓存中间特征，取代了传统长视频的端到端编解码方式。

这一推敲的关节在于，使显存的使用仅与 Chunk 大小关系，而与原始视频长度无关，从而达成了对无尽长 1080P 视频的高效编解码。

这种机制为轻易时长视频的实际提供了可行性。实验标明，在较小模子参数下，通义万相 VAE 达成了业内向上的视频压缩与重构质地。

而 DiT 则像是一位"时空捕手"，大要狠恶地捕捉视频中的时空动态，精确地建模视频中不同元素在时间和空间上的变化关系。

通义万相团队采用了以下优化表率：

时空全重看法机制：增强模子对复杂动态场景的建模智商。

参数分享机制：进步模子性能的同期，缩短实际资本。

文本镶嵌优化：进步文本消失智商，并显赫缩短计较需求。

△通义万相 2.1 视频生成架构图

其次，是超长序列实际上的破裂。

在靠近超长序列实际这一极具挑战性的任务时，通义万相团队深邃地哄骗了 4D 并行战略，犹如为模子实际打造了一台超强能源的"引擎"。

这一战略将 DP（数据并行）、FSDP（ Fully Sharded Data Parallel，全量分片数据并行）、RingAttention（环形重看法机制）、Ulysses（一种优化时刻）等多种先进时刻有机交融。

举例在显存优化方面，团队凭据序列长度带来的计较和通讯需求，袭取分层显存优化战略，解决显存碎屑问题，同期使用 FlashAttention3 进步时空重看法的计较着力。

此外，通以前冗余计较和高效 Kernel 达成，进一步缩短访存支出。

在文献系统优化方面，针对阿里云高性能文献系统的本性，团队袭取分片 Save/Load 方式优化数据读写性能，并通差错峰内存使用决策，解决 Dataloader Prefetch、CPU Offloading 与 Checkpoint 存储引起的内存 OOM 问题。

在沉稳性进步方面，依托阿里云的智能调动、慢机检测与自愈智商，模子实际大要达成自动故障检测与任务重启，大幅进步实际进程的沉稳性。

△通义万相 4D 并行漫步式实际战略

临了，是数据与评估双轮启动。

通义万相团队打造了一套自动化数据构建管线，通过优化视觉质地和通顺质地，筛选整合与东说念主类偏好漫步高度一致的数据集。这些数据具有各样性高、漫步平衡等特色，极大进步了实际着力。

团队还为此推敲了一套遮掩好意思学评分、通顺分析、提醒谨守等多个维度的评估体系，并实际了专科的打分器。通过这些自动化想法的响应，显赫加快了模子的迭代与优化。

以上等于真金不怕火成新版通义万相的中枢时刻要义了。

至此，不仅是从时刻改动方面，更是从真清亮切的体验角度来看，国产 Sora 再次走到了 AI 视频规模的前沿。

单就大要生成汉字这少许，等于大众唯独份的那种。

而从视频生陈规模之广，亦然应了"通义万相"的名字—— AI 也曾到了不错生成"万相"的时刻。

那么你是否也有脑洞打开的思法，并思让它们以视频的方式呈现出来呢？

快来体验一下最新、最 Fashion 的模子吧 ~

成功体验进口：

https://tongyi.aliyun.com/wanxiang/videoCreation

API 调用：

https://bailian.console.aliyun.com/?spm=5176.29619931.J__Z58Z6CX7MY__Ll8p1ZOR.1.74cd59fckLhf3c#/model-market

参考连结：

https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

— 完 —

点这里� � 怜惜我，牢记标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相遇 ~

你的位置：开云官网切尔西赞助商(2025已更新(最新/官方/入口) > 新闻动态 >

开云体育这段视频中天然有一个小污点（＂摸＂字多了一笔）-开云官网切尔西赞助商(2025已更新(最新/官方/入口)

热点资讯

相关资讯