<samp id="tgzrj"><video id="tgzrj"><nav id="tgzrj"></nav></video></samp>

    <samp id="tgzrj"></samp>
    <legend id="tgzrj"><font id="tgzrj"><tr id="tgzrj"></tr></font></legend>

      快播:GAN卷土重來(lái):10億參數的GigaGAN效果堪比擴散模型

      來(lái)源:程序員客棧時(shí)間:2023-06-17 07:49:35


      【資料圖】

      點(diǎn)藍色字關(guān)注“機器學(xué)習算法工程師”

      設為星標,干貨直達!

      自從 DALL·E 2 之后,在圖像生成方面擴散模型替代GAN成了主流方向,比如開(kāi)源的文生圖模型stable diffusion也是基于diffusion架構的。近日, Adobe研究者在論文Scaling up GANs for Text-to-Image Synthesis提出了參數量為10億(1B)的GAN模型:GigaGAN,其在文生圖效果上接近擴散模型效果,而且推理速度更快,生成512x512大小圖像只需要0.13s,生成16M像素圖像只需要 3.66s。同時(shí)GigaGAN也支持latent空間的編輯功能,比如latent插值,風(fēng)格混合,以及向量運算等。

      GigaGAN改進(jìn)了StyleGAN架構,采用兩階段訓練策略:一個(gè)是64x64的圖像生成器和一個(gè)512x512的圖像超分2器,其圖像生成器架構如下所示(這里也是采用CLIP text encoder來(lái)引入text condition):GigaGAN在 LAION2B-en和 COYO-700M數據集上訓練,其在COCO數據集上的FID達到9.09,超過(guò)stable diffusion 1.5,推理速度比stable diffusion快20倍多(2.9s vs 0.13s):GigaGAN除了文生圖能力,還可以實(shí)現可控的合成,比如風(fēng)格混合,如下圖所示:更多效果圖和技術(shù)細節見(jiàn)論文https://arxiv.org/abs/2303.05511和網(wǎng)站https://mingukkang.github.io/GigaGAN/

      標簽:

      責任編輯:FD31
      上一篇:搭載第四代i-MMD混動(dòng)系統,東風(fēng)本田CR-V e:HEV售價(jià)19.99萬(wàn)元起
      下一篇:最后一頁(yè)

      精彩圖集(熱圖)

      熱點(diǎn)圖集

      最近更新

      信用中國

      • 信用信息
      • 行政許可和行政處罰
      • 網(wǎng)站文章

      久爱免费观看在线精品_亚洲综合一区二区三区_最新国产国模无码视频在线_中文字幕无码精品亚洲资源网久久

      <samp id="tgzrj"><video id="tgzrj"><nav id="tgzrj"></nav></video></samp>

      <samp id="tgzrj"></samp>
      <legend id="tgzrj"><font id="tgzrj"><tr id="tgzrj"></tr></font></legend>