10月27日電,美團(tuán)LongCat團(tuán)隊(duì)正式發(fā)布LongCat-Video視頻生成模型。作為基于Diffusion Transformer(DiT)架構(gòu)的多功能統(tǒng)一視頻生成基座,LongCat-Video創(chuàng)新通過(guò)“條件幀數(shù)量”實(shí)現(xiàn)任務(wù)區(qū)分——文生視頻無(wú)需條件幀、圖生視頻輸入1幀參考圖、視頻續(xù)寫依托多幀前序內(nèi)容,原生支持三大核心任務(wù)且無(wú)需額外模型適配,形成“文生/圖生/視頻續(xù)寫”完整任務(wù)閉環(huán)。文生視頻方面,可生成720p、30fps高清視頻,能精準(zhǔn)解析文本中物體、人物、場(chǎng)景、風(fēng)格等細(xì)節(jié)指令,語(yǔ)義理解與視覺呈現(xiàn)能力達(dá)開源SOTA級(jí)別。