ai時代新變化解讀(當AI比人類更具創造力後)
2023-10-10 02:57:06 6
記者 | 姜菁玲
編輯 | 宋佳楠
輸入指令:貓,困惑,故障藝術,一副創意作品就這樣產生,用時不到30秒。
這正是全球爆火的AI作畫。利用AI繪畫工具,你只需輸入不同的詞彙,例如不同的藝術家風格、構圖、色彩、透視方法以及修飾詞,就能快速得到符合詞彙主題的畫作。你可以充分發揮自己的想像力,而任何一個關鍵詞的變動都可能產生完全不一樣的結果。
實際上,AI作畫這項技術並不新鮮,但是文字轉圖片這種形式將創作門檻拉到了足夠低,得以讓很多人體驗用AI進行藝術創作。
社交媒體上,抱著獵奇心態的用戶驚訝於AI在繪畫領域已經實現的驚人創造力,但在另一面,人類對AI的焦慮感再度爆發。
2022年8月,美國科羅拉多州博覽會的一項藝術比賽中,一位遊戲設計師用AI繪畫工具midjourney創作了一幅《太空歌劇院》畫像,並獲得了藝術比賽第一名。該消息引發了畫師群體對於人工智慧創作的劇烈討伐:人工智慧能否正義地利用畫師的成果進行模型訓練?與人類在繪畫上同臺競技是否公平?是否會對畫師職業形成巨大挑戰?
不安的情緒還蔓延至其他領域。一個月後,一位學生沮喪地聲稱OpenAI GPT-3模型替自己撰寫的論文獲得了全A成績,帖子發表後快速登上推特熱搜,眾多教授開始表達對於人工智慧論文的擔憂。GPT-3模型能夠支持用戶僅僅輸入一些關鍵詞句指令,幫助輸出任意一篇詩歌、散文、新聞報導和創意小說。
過去很長一段時間,人類對AI的想像建立在有足夠安全感的基礎上,因為受技術所限,AI在創造力上幾乎沒有什麼真正意義上的進展,更多地在替代人類從事那些可重複性高的「dirty work」。
但現在,一切正在改變。
AIGC解鎖新世界
2018年,一副由人工智慧生成的肖像畫在佳士得被拍出了43.25萬美元,成為世界上首個出售的人工智慧藝術品。
畫面中的男人面目模糊,身穿黑色袍子,有著濃厚的中世紀風格。右下角的作者署名區,顯示著一行數學公式,以告知人們這是人工智慧所作。
為了「畫出」這件作品,它的創造者Obvious組織成員利用了一個名為「生成性對抗網絡」(Generative Adversarial Network,GAN)的模型,用1.5萬個十四世紀至二十世紀之間的肖像畫數據對模型進行了投喂,直到產出的圖片通過圖靈測試。
這幅畫的拍賣在當時引發了眾多關注。Obvious組織趁勢提出了一個直擊人心的口號:「創造力不僅屬於人類」。它們想要證明, AI也能成為一等的藝術家。
AI作畫是AIGC(Artificial Intelligence Generated Content)裡面的一個分支,指的是一種通過AI技術來自動或輔助生成內容的生產方式。通過輸入指令,人類讓AI去完成冗雜的代碼、繪圖、建模等任務,從而生成內容。
除了AI繪畫,如今的AI還可以解鎖寫詩、作曲、換臉、捏臉等等需要創造力的工作。
今年9月,Meta公司推出了Make-A-Video人工智慧系統,它可以利用幾個關鍵詞或幾行文字描述生成一個幾秒鐘的短視頻,甚至還能通過給定的視頻或圖像,來製作視頻。
10月,在一檔人工智慧博客節目中,已故的蘋果創始人賈伯斯竟然成為首位嘉賓,與美國知名播客主持人Joe Rogan進行了一場長達20分鐘的交流,討論了賈伯斯對大學、計算機的看法以及工作狀態、信仰等。這檔名為podcast.ai的節目將賈伯斯的傳記和網絡上的錄音,用Play.ht模型進行大量訓練,最終產生出與賈伯斯對談的內容。
繼專業生成內容(Professional Generated Content,PGC)和用戶生成內容(User Generated Content,UGC)之後,AIGC正在成為一種新型生產方式。
9月舉辦的2022萬象·百度移動生態大會上,百度發布了一組「AI打工天團」,覆蓋了各種AIGC應用,包括AI自動生成文字、圖片,圖片轉換成視頻。百度稱,這個團隊裡不僅有文案、插畫師,還有視頻製作人,熬夜加班的活兒都可以交給AI。
更早之前,海外微軟「小冰」的音樂已經實現旋律、編曲及歌詞端一體化;2019年,中國平安AI作曲在世界AI作曲國際大獎賽中獲得第一,創作AI交響變奏曲《我和我的祖國》;今年年初,網易利用AI系統成功製作出兩首國風作品《耀染先農》和《春啟正陽》。
紅杉美國的兩位合伙人在一篇題為《Generative AI: A Creative New World》的報告中表示,機器開始嘗試創造有意義和美麗的東西,這個新類別被稱為「生成式AI(Generative AI)」,這意味著機器正在生成新的東西,而不是分析已經存在的東西。
這份報告中顯示,從2020年到2025年,AI生成的技術將會不斷成熟,逐步可以生成文字、圖片、語音、代碼、視頻以及遊戲模型等等,而社交媒體、設計、遊戲、代碼生成等行業將迎來革新性改變。
AI作畫為何突然爆火?
AI作畫的熱潮已經顯現在資本市場。
2022年上半年開始,加入AI作畫賽道的廠商越來越多。在國外,半年內湧現出Stable Diffusion、Disco Diffusion、DALL-E2、Mid Journey、Photosonic AI多家AI作畫公司。國內,Tiamat、蜜度、百度文心、6Open等一批公司開始對外推出相關產品。
它們的迭代速度非常之快。「今年5月之前,AI所能生成的還是幾乎沒有商業價值的圖片,但現在已經進入準商用級別了。」Tiamat創始人青柑告訴界面新聞記者,在早期研發特色管線的過程中,需要對數據、反饋系統進行不斷調整,但是跑通一個管線之後,就會快速迭代,根據不同商業化場景進行管線定製。
這使得該賽道迅速成為資本圈的新寵。10月18日,上線僅兩個月的AI作畫平臺StableDiffusion,產出作品超過200萬張,其背後公司StabilityAI獲得新一輪1.01億美元融資,公司估值突破10億美元,成為新晉獨角獸企業。10月,國內AIGC初創公司Tiamat宣布獲得來自DCM的數百萬美元天使輪融資。
AI展現繪畫、寫詩等技能,本質上屬於自然語言生成Natural Language Generation(NLG)的應用,是NLP自然語言處理技術的一大類任務,已經應用了將近30年。
但用Tiamat創始人青柑的話說,過去對AI的運用「更多像是學術界的自嗨」。而今年AI創作的技術因為一種呈現為文字轉圖像(Text-to-image)特性的嶄新交互方式,允許大眾開始參與自主創作,不僅僅停留在實驗室和科技展會中的Demo。
多位AI作畫廠商向界面新聞記者分析,AI作畫能夠快速成為低門檻的產品背後,主要是底層模型技術的革新。
傳統AI繪畫的的技術原理是生成對抗網絡(GAN)或VAE等。而GAN作為上一代AI繪畫工具與平臺最主流的圖像生成模型,在模型訓練方面已經有了很大的突破,但在實際應用的過程中仍然擁有嚴重的結構性問題,比如當用戶希望生成「眼睛長在鼻子下面的人臉」,或「戴著用鮮花構成的眼鏡」這種域外(Out-Of-Domain)的結果時,GAN通常會失效。
而在操作上,這類模型一般由用戶提供草圖,由GAN模型將其轉化為真實的風景圖像,用戶無法通過文本影響生成結果。
直到CLIP與Diffusion模型開始出現並相互結合,文字直接生成可以商業落地的圖像才成為可能。
Diffusion指的是一種去躁擴散模型,其工作原理就是先給一幅畫面逐步加入噪點,一直到整個畫面都變成白噪聲,再記錄這個過程,然後逆轉過來給AI學習。而AI所看到的是全是噪點的畫面如何一點點變清晰直到變成一幅畫,通過學習這個逐步去噪點的過程來學會作畫。
由於Diffusion適用於具有大量不同和複雜數據的學習模型,從而解決了GAN的問題,因此,Diffusion對圖像生成效果的提升十分顯著,數字生成的痕跡也得到了有效削弱,用戶自己可選執行步數,步數越多圖像越精細的特點也激起了更多的「硬核」需求。
CLIP是一種跨模態的圖文,這個模型的使用可以允許用戶通過文字的形式實現AI作畫。它的原理是使用已經標註好的「文字-圖像」訓練數據,一方面對文字進行模型訓練,同時對圖像進行另一個模型的訓練,不斷調整兩個模型內部參數,使得文字特徵值和圖像特徵值能讓對應的「文字-圖像」確認匹配。
「因為底層技術的突飛猛進,AI繪畫輸出的畫面在這短短的半年內,從最初的較為粗糙快速邁入了準商用的高完成度。」 AI數據智能應用公司蜜度CTO劉益東告訴界面新聞記者。前不久,基於自研的自然語言處理和圖像生成技術,這家企業剛剛推出了自己的AI作畫應用「蜜小度」,並且正在積極籌備2.0的商用版本。
不僅如此,技術的進步讓AI繪畫開始逐漸具備藝術性。「過去學術界評價標準是我所生成的圖像與文本含義有多接近,而不是作品本身有多少藝術價值。」 Tiamat創始人青柑稱。
除了模型層面的突破,推動AI作畫發展的還有數據和算力層面的快速進步。劉益東表示,過去的AI作畫訓練中一直缺乏相應的訓練數據集,要訓練AI必須要有千萬級規模的高質量「圖文對」(image-text pair),讓AI在大腦中能夠將文字與圖片的意思進行匹配連接。而近年來,由於大量創作者的加入和網際網路的發展,網際網路中可訓練的數據集變得更加豐富。
在上文提到紅杉的報告中,紅杉的兩位合伙人認為,由於Diffusion Models的應用以及算力成本的下降,生成式AI已經變得更好、更快、更便宜。接下來,「殺手級應用該出現了」。
AIGC的商業空間
在商業上,AIGC的巨大想像力主要集中在內容創作與元宇宙當中。
在內容創作領域,生成式AI被寄予厚望。百度創始人李彥宏表示,AIGC是PGC、UGC之後,全新的內容生產方式。它不僅會提升內容生產的效率,也會創造出有獨特價值和獨立視角的內容。
雖然眾多AI作畫廠商仍處在快速迭代產品的測試期,商業化模式非常早期。但是對於部分B端客戶來說,AI作畫的吸引力十分之大。
Tiamat創始人青柑告訴界面新聞記者,在沒有任何BD的情況下,不到半年時間,Tiamat已有數十家B端客戶,並與知名科幻IP、央視網以及《時尚芭莎》、《嘉人》等一線時尚大刊建立長期合作關係,與眾多頭部遊戲公司,特別是與持有故宮文化相關IP的非遺文化IP機構知造局等開展了戰略合作。
青柑表示,驅動B端客戶使用AI作畫的因素一部分是因為創意、新奇以及科技感,一部分是因為成本。沒有哪個人類畫師可以在1分鐘內畫出4副同主題但完全不一樣的畫作。相比於人類畫師,使用AI作畫的時間、金錢成本大大降低。
據界面新聞記者了解,目前國內外AI作畫廠商的商業模式主要分為TO C與TO B兩種。在C端,面向用戶收取包月會員費用或者購買點數按張購買圖片;在B端,面向時尚、文物、遊戲等行業提供定製圖片,或者合作定製AI生成模型。在海外,Stable Diffusion已經開始嘗試為客戶部署大型定製化模型。
除此之外,AI已經在幫助實現對海量劇本數據進行分析歸納,並按照預設風格快速生產劇本。國內海馬輕帆推出的「小說轉劇本」智能寫作功能,已經服務了包括《你好,李煥英》《流浪地球》 等爆款作品在內的劇集劇本30000多集、電影/網絡電影劇本8000多部、網絡小說超過500萬部。
李彥宏預言,未來十年,AIGC將顛覆現有內容生產模式,可以實現以「十分之一的成本」,以百倍千倍的生產速度,去生成AI原創內容。Gartner預測,到2025年,生成式AI將佔所有生成數據的10%,當前這一比例不到1%。
當然,更有想像空間的商業化場景在於元宇宙,這也是AIGC被資本熱捧的重要原因。元宇宙中需要建設生成大量的建築、場景、人物等等各種虛擬資產,對於這部分工作,AI是最適合的完成者。
比如,RCT Studio打造的Morpheus引擎能夠通過深度學習,輸入目標文字即可渲染成3D資源和動畫,這被視為通過AI在元宇宙中低成本構建小型場景初具技術基礎的信號。以及,眾多虛擬人公司利用AI生成數字人化身、驅動數字人的面部表情變化,AI驅動的數字人化身逐漸成為現實。
在現實生活中,生成式AI在醫療保健、數字商業、製造業、農業等多個行業都有豐富的應用前景,如幫助醫生檢測X射線、CT等設備掃描中的病變、輔助檢測產品質量等等。
不過,AIGC整體仍處於早期階段,生成式AI仍有很多問題需要解決。
以發展最快的AI作畫行業來看,首先需要解決的是版權問題。訓練AI需要大量的圖文對數據,AI創作的畫作會包含這些可能產生版權糾紛的元素,這限制了AI作畫在商業化方面的進一步發展。一位遊戲製作人對界面新聞表示,版權風險是他堅決不考慮用AI作畫的原因之一。
一項抽樣分析顯示,國外最受歡迎的AI作畫平臺之一Stable Diffusion模型學習了超過50億條圖文對數據,而它所用到的數據集裡,大量圖片來自Pinterest、Flickr等UGC內容平臺,以及Getty等商業圖庫網站。
Midjourney創始人David Holz在接受採訪時曾表示,Midjourney現在的訓練數據基本上都是來自於網際網路所有能得到的數據、文本和圖像。但他本人也不太清楚這些被拿來訓練AI的數據是否有版權保護。
因此,許多畫師正在抗議自己遭受到了AI的抄襲,並要求退出AI的訓練。不過,這些糾紛目前並沒有明確的法律依據支持,AI作畫仍處在一個灰色地帶。
為了最大程度避免潛在的版權糾紛,部分AI作畫公司正在積極探索解決方案。Tiamat創始人青柑介紹稱,目前Tiamat的做法是首先在訓練層進行規避,在數據集中清洗掉大量有版權以及帶有明顯IP的素材;同時,對於可能存在的版權風險,在產生的畫作結果當中對用戶進行風險提示。之後,Tiamat希望能夠跟一些畫師或者藝術家直接合作,讓他們來上傳自己可以被利用來訓練的數據,之後再通過分成或者直接購買的形式來購買一項類似於「AI訓練使用權」的權益,從而解決一些當代藝術家的問題。
多位業內人士表示,當下AI作畫的發展速度太快,在AIGC的智慧財產權層面,應當需要業界、學界和相關政策部門共同去探討,尋找比較好的解決方案。
AIGC在底層的關鍵性技術仍需摸索。信通院2022年發布的《人工智慧生成內容(AIGC) 白皮書 》指出,當前AIGC關鍵技術不夠成熟。人工智慧算法在透明度、魯棒性、偏見與歧視方面存在尚未克服的技術局限,導致算法應用問題重重。此外,在音頻、視頻、圖片、文字等形式的內容編輯與創作技術方面存在機械性問題,離流暢、擬人的感性表現仍有距離。
紅杉在報告中寫道,「生成式AI應用的第一波浪潮類似於iPhone剛出現時的移動應用場景——有些噱頭但比較單薄,競爭差異化和商業模式不明確。然而,其中一些應用程式提供了一個有趣的視角,讓我們可以一窺未來可能會發生什麼。」
報告中的另一段話則更好的為生成式AI應用的未來做了註解:
生成式AI將深深融入我們的工作、創作和娛樂方式,例如備忘錄可以自己寫,3D列印任何你能想像的東西,從文字到皮克斯電影,像Roblox類似的遊戲體驗來快速創造出豐富的世界。雖然這些在今天看起來像是科幻小說,但科技進步的速度是驚人的。從微小(narrow)的語言模型到代碼自動生成只用了幾年時間,如果我們繼續沿著這個變化的速度,並遵循「大模型摩爾定律(Large Model Moore’s Law)」,那麼這些遙不可及的場景就會變得觸手可及。
,