發(fā)布時間:2024-12-24 00:05:08 來源:本站 作者:admin
谷歌最新的人工智能工具“Whisk”允許人們上傳照片,以返回由 AI 生成的合成圖像 - 甚至無需用戶輸入任何文本來解
釋他們想要什么。
用戶可以輸入描繪主題、設(shè)置和風(fēng)格的圖像,然后 Whisk 會將所有內(nèi)容組合成一張圖像。
谷歌在一篇博客文章中表示,Whisk 是一種用于快速激發(fā)靈感的“創(chuàng)意工具”,而不是“傳統(tǒng)的圖像編輯器”。從本質(zhì)
上講,Whisk 旨在成為一種有趣的 AI 功能,而不是一種精致的專業(yè)工作。
盡管反對者警告說,人工智能發(fā)展缺乏護(hù)欄會給人類帶來危險,但谷歌和 OpenAI 等大型科技公司正在競相推出可以展
示時髦新技術(shù)用途的消費(fèi)產(chǎn)品。
自 OpenAI 于 2021 年首次推出其文本轉(zhuǎn)圖像創(chuàng)作工具 Dall-E 以來,人工智能生成藝術(shù)作品的概念已席卷社交媒體,并
成為消費(fèi)產(chǎn)品的焦點(diǎn)。谷歌的 Whisk 是一款圖像轉(zhuǎn)圖像生成器,它建立在流行的文本轉(zhuǎn)圖像生成器概念之上。
使用 Whisk 的人可以通過編輯輸入和混合類別來“重新混合”最終圖像,以制作不同的圖像,如毛絨玩具、琺瑯別針或
貼紙。如果用戶想要指導(dǎo)某些細(xì)節(jié),他們可以添加文本,但這不是創(chuàng)建圖像的必要條件。
“Whisk 旨在讓用戶以新穎而富有創(chuàng)意的方式重新混合主題、場景和風(fēng)格,提供快速的視覺探索,而不是像素完美的編
輯,”谷歌實(shí)驗室產(chǎn)品管理總監(jiān) Thomas Iljic 在一份聲明中表示。
谷歌的 Whisk 是基于 DeepMind 開發(fā)的生成式人工智能而構(gòu)建的,DeepMind 是谷歌于 2014 年收購的人工智能實(shí)驗
室。
Whisk 的工作原理是使用谷歌的核心人工智能產(chǎn)品 Gemini(于 2023 年 12 月首次亮相),并將其與 DeepMind 于
12 月發(fā)布的最新文本轉(zhuǎn)圖像生成器 Imagen 3 配對。
當(dāng)用戶上傳他們的圖像時,Gemini 會生成一個標(biāo)題,并將其輸入到 Imagen 3 中。該過程捕捉了主題的“本質(zhì)”,而不
是精確的復(fù)制品,這允許重新混合最終圖像,但也意味著最終產(chǎn)品可能會偏離提示。
例如,谷歌在一篇博文中表示,生成的圖像可能與提示圖像具有不同的身高、發(fā)型或膚色。
當(dāng)谷歌于 2 月首次推出 Gemini 的文本轉(zhuǎn)圖像創(chuàng)建器時,該公司最初面臨強(qiáng)烈反對,因為該工具生成的圖像在歷史上是
不準(zhǔn)確的。
該公司表示,Whisk 最初以 Google Labs 網(wǎng)站的形式向美國用戶開放,目前處于早期開發(fā)階段。
OpenAI 最近還發(fā)布了一款名為 Sora 的文本轉(zhuǎn)視頻生成器,凸顯了消費(fèi)產(chǎn)品的競爭。
Wedbush Securities 董事總經(jīng)理兼高級股票分析師 Dan Ives 告訴 CNN,Whisk 是谷歌在人工智能和科技競賽中又一
次“展示實(shí)力的時刻”。
“DeepMind 是谷歌的重要資產(chǎn),”Ives 表示,并指出人工智能產(chǎn)品是谷歌 2025 年新產(chǎn)品“寶庫”的一部分,其中還
包括與三星和高通合作開發(fā)的新 Android 操作系統(tǒng)。
公司信息
商標(biāo)業(yè)務(wù)
專利業(yè)務(wù)
新聞中心