您的位置: 首頁 > 新聞 > 高新技術(shù) > 新聞詳情

騰訊混元圖像2.0發(fā)布 實時生圖毫秒級速度與超寫實畫質(zhì)

時間:2025-05-16 17:36:45
  • 來源:快科技
  • 作者:建嘉
  • 編輯:liyunfei

5月16日消息,今天騰訊正式發(fā)布了業(yè)內(nèi)首個毫秒級響應(yīng)的實時生圖大模型——混元圖像2.0(Hunyuan Image2.0)。目前已在騰訊混元官方網(wǎng)站上線,并對外開放注冊體驗,該模型主要有兩大特點:實時生圖、超寫實畫質(zhì)。

騰訊混元圖像2.0發(fā)布 實時生圖毫秒級速度與超寫實畫質(zhì)

相比前代模型,騰訊混元圖像2.0模型參數(shù)量提升了一個數(shù)量級,得益于超高壓縮倍率的圖像編解碼器以及全新擴散架構(gòu),其生圖速度顯著快于行業(yè)領(lǐng)先模型。

在同類商業(yè)產(chǎn)品每張圖推理速度需要5到10秒的情況下,騰訊混元可實現(xiàn)毫秒級響應(yīng),支持用戶可以一邊打字或者一邊說話一邊出圖,改變了傳統(tǒng)“抽卡—等待—抽卡”的方式。

騰訊混元圖像2.0發(fā)布 實時生圖毫秒級速度與超寫實畫質(zhì)

除了速度快以外,騰訊混元圖像2.0模型圖像生成質(zhì)量提升明顯,通過強化學(xué)習(xí)等算法以及引入大量人類美學(xué)知識對齊,生成的圖像可有效避免AIGC圖像中的“AI味”,真實感強、細節(jié)豐富、可用性高。

在圖像生成領(lǐng)域?qū)iT測試模型復(fù)雜文本指令理解與生成能力的評估基準GenEval(Geneval Bench)上,騰訊混元圖像2.0模型準確率超過95%,遠超其他同類模型。

騰訊混元圖像2.0發(fā)布 實時生圖毫秒級速度與超寫實畫質(zhì)

提示詞:人像攝影,愛因斯坦,背景是東方明珠,自拍視角

騰訊表示,騰訊混元圖像2.0引入多模態(tài)大語言模型(MLLM)作為文本編碼器,配合自研的結(jié)構(gòu)化caption系統(tǒng),不僅能理解你在說什么,更能推測出你希望畫面「怎么表達」。

哪怕你一句話里埋了三層含義,它也能一一拆解,再一筆一筆畫出來。

騰訊混元圖像2.0發(fā)布 實時生圖毫秒級速度與超寫實畫質(zhì)

除了文字輸入,騰訊混元圖像2.0還可以通過語音直接輸入提示詞,系統(tǒng)將語音自動轉(zhuǎn)寫為文字,并在識別后即時生成圖像,適用于直播講解、移動創(chuàng)作等場景。

也可以上傳草圖作為參考,模型能自動識別線稿的結(jié)構(gòu)與構(gòu)圖邏輯,再結(jié)合提示詞內(nèi)容補全光影、材質(zhì)、背景等細節(jié),迅速擴展成圖。

騰訊混元圖像2.0模型生成的圖片:

騰訊混元圖像2.0發(fā)布 實時生圖毫秒級速度與超寫實畫質(zhì)

人像攝影風(fēng)格

騰訊混元圖像2.0發(fā)布 實時生圖毫秒級速度與超寫實畫質(zhì)

動物特寫

騰訊混元圖像2.0發(fā)布 實時生圖毫秒級速度與超寫實畫質(zhì)

復(fù)古攝影

騰訊混元圖像2.0發(fā)布 實時生圖毫秒級速度與超寫實畫質(zhì)

動漫風(fēng)格

騰訊混元圖像2.0發(fā)布 實時生圖毫秒級速度與超寫實畫質(zhì)

真實人物風(fēng)格

0

玩家點評 0人參與,0條評論)

收藏
違法和不良信息舉報
分享:

熱門評論

全部評論

他們都在說 再看看
3DM自運營游戲推薦 更多+