国内精品国产三级国产a久久,国产精品久久中文,国语精品中文字幕,亚洲欧美在线磁力

Google AI 推出 MediaPipe Diffusion 插件:可在設備上實現可控的文本到圖像生成|全球快資訊

首頁 > 探索 > > 正文

日期:2023-07-03 16:51:02    來源:站長之家    


【資料圖】

站長之家(ChinaZ.com) 7月3日消息:Diffusion 模型近年來在文本到圖像生成方面得到廣泛應用,并取得了顯著的成功,從而在圖像質量、推理性能和創造性范圍方面實現了重大改進。然而,在難以用文字明確定義的條件下,有效的生成管理仍然是一個挑戰。

由谷歌研究人員開發的 MediaPipe Diffusion 插件使得用戶可以在設備上執行文本到圖像的生成,并進行用戶控制。在這項研究中,谷歌延伸了之前關于設備上大型生成模型的 GPU 推理的工作,提出了低成本的可編程文本到圖像創建解決方案,可以集成到現有的 Diffusion 模型及其 LoRA 變體中。

Diffusion 模型中模擬了迭代去噪的圖像生成過程。Diffusion 模型的每一次迭代都以受噪聲污染的圖像開始,并以目標概念的圖像結束。通過文本提示的語言理解極大地增強了圖像生成過程。文本嵌入通過交叉注意力層與文本到圖像生成模型關聯起來。然而,物體的位置和姿態等細節可能更難以通過文本提示傳達。研究人員通過額外的模型將條件圖像中的控制信息引入到 Diffusion 中。

Plug-and-Play、ControlNet 和 T2I Adapter 方法經常用于生成受控的文本到圖像輸出。Plug-and-Play 使用 Diffusion 模型的副本(Stable Diffusion1.5 版本的 860M 參數)和廣泛使用的去噪 Diffusion 隱式模型(DDIM)反演方法來從輸入圖像中推導出初始噪聲輸入。

通過自注意力從復制的 Diffusion 中提取空間特征,并使用 Plug-and-Play 將其注入到文本到圖像 Diffusion 中。ControlNet 構建了 Diffusion 模型編碼器的可訓練副本,并通過一個帶有零初始化參數的卷積層連接到編碼條件信息,然后傳遞給解碼器層。不幸的是,這導致了模型的顯著增大,Stable Diffusion1.5 版本的參數約為 4.5 億個,相當于 Diffusion 模型本身的一半。T2I Adapter 在較小的網絡(77M 參數)下實現了可比較的受控生成結果。條件圖像是 T2I Adapter 的唯一輸入,其結果被用于所有后續的 Diffusion 周期。然而,這種適配器樣式不適用于移動設備。

MediaPipe Diffusion 插件是谷歌開發的一個獨立網絡,旨在使條件生成變得高效、靈活和可擴展。

作為一種便攜式的設備上文本到圖像創建范式,MediaPipe Diffusion 插件可以免費下載使用。它接收一個條件圖像,并通過多尺度特征提取將特征添加到 Diffusion 模型的編碼器中的適當尺度上。

當與文本到圖像 Diffusion 模型結合使用時,插件模型將一個條件信號添加到圖像生成過程中。谷歌希望插件網絡只有 600 萬個參數,使其成為一個相對簡單的模型。

MediaPipe:https://developers.google.com/mediapipe

關鍵詞:

下一篇:馬塔:感謝伊卡爾迪送我土超冠軍獎杯,但他在任意球賭注上輸了_世界微頭條
上一篇:最后一頁

 
主站蜘蛛池模板: 金华市| 肇东市| 辉县市| 嘉峪关市| 长沙市| 白水县| 聂拉木县| 常宁市| 柘荣县| 庆安县| 师宗县| 乐山市| 吉安市| 昌平区| 威宁| 台中县| 罗定市| 翁牛特旗| 石泉县| 苏州市| 麻阳| 兰溪市| 福安市| 新平| 赣榆县| 泸定县| 西藏| 潞西市| 昌黎县| 含山县| 衡东县| 丹阳市| 栾川县| 洪雅县| 宜都市| 汝南县| 夏邑县| 宿松县| 东乡族自治县| 本溪市| 伽师县|