比特幣行情 比特幣行情
Ctrl+D 比特幣行情
ads
首頁 > Luna > Info

AIG:AIGC:新世界正在到來

Author:

Time:1900/1/1 0:00:00

你知道 《太空歌劇院》 嗎?

它是一幅 AI 作的畫,并拿到了藝術比賽的一等獎。在 2022 年,AI 作畫已經變得如此簡單,你只要會打字就行。在一片高斯噪聲中逐漸顯露出精彩絕倫的顏色和圖案,AI 是怎么畫畫的?為什么能畫得這么好?會不會取代人類設計師?

更令人費解的在于,AI 有沒有自己的邏輯思辨能力?

其實,我們還處在人工智能的早期,AI 對真正的邏輯和某個垂直領域的理解還不深,但不斷強化它的邏輯思維能力一定會是接下來研發的重點。

書接上回,這次真格投資副總裁林惠文將帶領我們,從上次 ChatGPT 的 AI 文字跳到 AI 圖片(ChatGPT:又一個AI突破的時刻|真格投資人專欄),繼續探索 AI 世界。從 AIGC 圖片背后的模型,到模型之間的關系以及發展歷程。 除此之外,我們還準備了對 AI 領域相關問題的解惑和一些好用的工具推薦,請一定不要錯過~

非常榮幸今天能跟大家分享一些 AIGC 圖片相關的梳理,在漫漫的熊市之中,近期我們看到了很多驚人的生成效果。

首先我們來看一下 AI 生成的圖片。

這是最近非常火的 AI 生成圖片平臺 Midjourney (強烈推薦大家試試看)產生的一些圖片效果,可以看到非常真實,也有很強的創意效果。它是如何做到的?

通俗易懂地來講有三個步驟。首先,把人類的文字轉換成計算機能夠理解的表達,然后把計算機能理解的文本表達轉換成計算機能理解的視覺描述,再接下來,把計算機能理解的視覺描述生成人類能夠看懂的圖片。

比特幣辯護律師稱Craig Wright的訴訟可能損害開源軟件:金色財經報道,非營利組織比特幣法律保護基金的首席法律官Jessica Jonas在5月18日邁阿密舉行的Bitcoin 2023活動中討論了針對比特幣核心開發者的高調訴訟的潛在法律后果。該案件是由Tulip Trading的所有者/經營者Craig Wright在英國提起的法律訴訟。Wright最出名的也許是他聲稱自己是比特幣創造者中本聰,這一說法推動了另一起不相關的訴訟。在Tulip Trading與據稱參與Bitcoin Core開源開發的14名被點名的個人以及其他人之間的案件中,Wright聲稱上述開發者對他負有信托責任。

Jonas解釋說,實施這樣的改變需要對比特幣區塊鏈進行硬分叉,然后期望世界上的每個人都轉向新的分叉,而不是繼續使用現有的核心鏈。Jonas將圍繞受托責任的法律領域描述為“復雜”,接著將訴訟描述為由于超出技術限制的原因而格外危險。[2023/5/19 15:12:28]

以 DALLE2 為例,它訓練了 3 個模型來做這件事情。接下來,我會分別講述。

第一個模型是 CLIP 模型,負責將文本和視覺圖像聯系起來。

過去的很多算法就像是拿 1 萬張人類已經標注了類別的照片,讓計算機去尋找不同類別照片的差異化特征。最大的缺點是,它無法標注世間萬物,只能分類有限的集合,同時人力標注會成為學習的上限。

CLIP 模型帶來的新思路是什么?它很像是真實生活中教小朋友認識物體。看到一個東西就直接告訴小朋友,這是一只游泳的鴨子,而不是一次性拿 20 張鴨子的圖片告訴他,這是鴨子,你記住它的所有特征。CLIP 模型的算法實現了這樣一個特點,只要我們有充足的算力,就能學會世間的萬物。

美國法官稱“澳本聰”Craig Wright未能正確提供與比特幣所有權相關的信息:金色財經報道,美國法官Bruce Reinhart在周五公布的裁決中表示,自稱是比特幣創始人的“澳本聰”Craig Wright已經在法庭訴訟中出示了“初步證據”,證明他未能正確提供與價值1.43億美元的比特幣所有權相關的信息,因此存在蔑視法庭行為。法官表示,Wright“拒絕在表格中提供有關其配偶及其資產的基本信息”。[2023/5/6 14:45:50]

CLIP 模型的數據集從哪來?它來自于互聯網上圖文的匹配對,總共收集了 4 億張的圖文匹配對,再經過一個圖文編碼器,把人類能看懂的文字和圖片轉換成計算機能懂的數據結構。

CLIP 模型用到了兩個編碼器,視覺編碼器叫 Vision Transformer,文字編碼器叫 Transformer。下圖是 Vision Transformer 編碼器產生的效果圖,可以看到兩張圖片里背景部分的顏色被大幅弱化,強調了網球和黑狗的輪廓。這就是優秀的編碼器能實現的效果:用人類的視角找重點,進行數據降維。

CLIP 模型做的事是什么?把來自互聯網的 4 億張圖片和 4 億條文本進行編碼,并兩兩配對,形成一個 4 億 * 4 億的矩陣。

CLIP 模型的訓練目標是什么?通過各種各樣的復雜計算,讓原本匹配的圖片和文本產生正相關。將蘋果的照片和蘋果的文字進行匹配,而不是摩托車或其他。

CLIP 模型實現的功能是什么?給定任何一個文本,能返回相關性最高的圖片;給定任何一張圖片,能返回相關性最高的文本描述。實現海量的圖像和文字特征的 mapping。

DigiDaigaku:Dragon Egg空投已結束:金色財經報道,DigiDaigaku在其官方社交媒體賬號上宣布Dragon Egg空投已結束,同時DigiDaigaku還表示如果用戶錯過了此前官方報名,目前還有2500個免費Dragon Egg在FreeNFT平臺上提供。Dragon Egg于上個月12號為該生態系統NFT持有者(包括Genesis、Heroes和Super Villains)啟動空投,以幫助嬰兒龍成長進化。[2023/3/17 13:10:00]

有了 mapping 以后,接下來重要的是如何從視覺的描述中產生圖像,這是 GLIDE 擴散模型。

它就像是教小朋友學畫畫,先給小朋友看一張簡筆畫,逐漸把它擦掉,讓小朋友在大人的引導之下,試著從白紙開始恢復這張簡筆畫。

從計算機的視角來看,擦除的過程就是給圖片不斷增加噪聲的過程,這種噪聲是一種正態分布的噪聲,叫高斯噪聲,直到最后變成一張純噪聲的圖片。恢復的過程就是通過概率除去噪聲的過程,這中間往往會加一些指引,叫 Guidance,以確保恢復的過程朝著對的方向。

左圖為增加噪聲的過程,右圖為除去噪聲的過程

GLIDE 擴散模型帶來最大的創新就是在訓練的過程中融入了文本的信息。在 CLIP 模型的基礎上,在恢復的過程中嵌入文本的信息,這就導致了難度的快速疊加,因為它既要學會恢復的算法,又需要學會識別的算法。然而,在恢復的過程中,它并沒有把知識完全融入其中,如何才能把知識徹底地融入到圖像生成里?

GLIDE 模型的抽象理解,就像是爸爸教小朋友騎車,目標是希望在有爸爸扶和沒有爸爸扶的時候,小朋友都能騎出同樣的曲線。這往往通過一種中間形態來實現,從一直扶到偶爾扶,偶爾撒手,最終的訓練目標就是不斷在這種狀態里達成。

中國大學經濟學教科書將Craig Wright引用為中本聰:據bitcoin.com消息,中國一些主要大學使用的經濟學教科書將Craig Wright引用為比特幣創始人中本聰(Satoshi Nakamoto)。該教材編譯自美國經濟學家及作家Frederic Mishkin撰寫的“貨幣,銀行和金融市場經濟學(第六版)”。編譯的教材中寫道“比特幣是一種全球通用的加密電子支付貨幣,創始人是名叫Craig Wright的澳大利亞金融‘極客’”。據悉,世界上其他的一些著名大學,例如普林斯頓大學,麻省理工學院使用的教材中也提到了比特幣的創始人,但只是稱其擁有“Satoshi Nakamoto”的化名。[2018/6/22]

GLIDE 擴散模型的目標也是如此,在它的原理中,爸爸扶著小朋友就是分類器,能幫助分類或目標識別,撒手就意味著無分類器指引,有時會將一些文本的信息替換成空的字符串,隨機替換掉一些信息。當有分類器產生的曲線和沒有分類器指引產生的曲線一致時,整個文本的信息就融入到了生成過程中。

有了 GLIDE 擴散模型以后,還可以制定不同的引導目標,因此會產生不同的效果,如果你想生成與某張圖片一樣效果的圖片,你可以輸入這張圖片,接著就會得到一張類似風格的圖片。這就像是一個小朋友的爸爸告訴他,自行車的前輪其實是個裝飾品,他最終在不斷的強調之下,就會學會這樣騎車的方式。

當 CLIP 模型將文本和視覺相連,GLIDE 模型通過概率恢復一張隨機的模糊照片,并把文本信息融入其中,我們還缺少了這兩者之間的聯結,如何把文本描述映射到視覺描述中,這就是 PRIOR 模型的核心。

有了 CLIP 模型,雖然能夠實現文本和視覺之間相關性的描述,但還缺少一個轉換器,那就是面對一個新的描述,如何產生一張新的圖片。就像你教會了小朋友畫帽子,也教會了畫兔子,現在如何讓他畫一張戴帽子的兔子。PRIOR 模型其實是在 CLIP 模型之后產生一個新的效果,在 CLIP 模型中用到的文本和圖片編碼器,給編碼后的東西再增加一個特征,這就使得文本和圖片的信息都融合在同個維度,便于我們去操作。

Craig Wright:只交易有價值的東西:自稱比特幣“創始人”的Craig Wright 在其社交媒體表示:“長線是不可避免的,如果認為市場是 有趣的,那就是錯誤的。只為價值進行交易,不認為能創造價值的就不要冒險了。我不交易,我創造價值,這就是我富有的原因。”[2018/6/14]

CLIP 模型理解了圖片與文字的關系,PRIOR 模型就是在理解圖片與文字的關系之上,從文字中產生一個腦海中的構圖,GLIDE 擴散模型就是要把腦海中的構圖畫出來,畫出人類能懂的視覺圖片。

我們再從下圖論文的原理來理解一下。圖中有一條虛線,虛線的上方是預訓練的過程。左邊的 Text Encoder,就是之前提到的文字轉換器 Transformer,它把一段文字轉換成計算機能理解的表達。右邊的 Image Encoder,也就是視覺轉換器 Vision Transformer,把人類理解的視覺圖片轉換成計算機的數據結構。

在經過大量的訓練之后,這兩者之間產生了具有相關性的連接,也就是文字和圖片之間的關系產生了非常強的理解。

虛線之下是生成的過程,把文本放進 PRIOR 模型里面,從這段文本中生成計算機能理解的視覺表達結構,再用 GLIDE 模型生成人類能看懂的圖片。雖然上下兩只小狗的圖片看起來不一樣,但它們本質上包含了同樣的文本語義,這樣就實現了任何一段文本都能生成出一張人類能看懂的圖片。

整個夢開始的地方,始于 2017 年 Google 發布的一篇論文《Attention is all you need》。它讓算法學會了人類的注意力機制,就是當我們去看一張圖片時,會看到重點,同時忽略背景的信息。

這篇論文發表之后,帶來一個 NLP 的模型,叫 Transformer,一經發布便快速屠榜,接著很快有了 BERT 模型,有了 OpenAI 的 GPT-3 模型。在視覺領域,有 DERT 模型,iGPT 模型,以及上面提到的 Vision Transformer。

Transformer 模型的重要性在于,它是我們剛才提到的三個模型的底座,學會找出圖片和文字的重點,才能夠搭建CLIP 模型,才可能有之上的 PRIOR 和 GLIDE 擴散模型。

夢想的實現還有另一半,圖像生成。

從 2005 年開始的求解特定概率密度函數,通俗理解就是通過最快的方法去估算正態分布,再到 2008 年的去噪自編碼器的研發,加入高斯噪聲,一種正態分布的噪聲,再將它去除,我們用到的很多拍照中的去噪、降噪功能就是從這里來的。到了 2011 年,有人嘗試將這兩種算法結合在一起,2015 年,開始嘗試用這種思想還原照片。但這時候還原照片的質量還不是很高。

時間撥轉到 2019 年,中國的宋飏博士把朗之萬動力學引入到數據分布的估算中,產生了非常好的效果。2020 年,Google 發布名叫 DDPM 的論文,這篇論文核心就是結合朗之萬動力學和擴散模型,產生了非常高的圖片生成質量。

2014 年引起軒然大波的 GAN network 對抗生成網絡,已經能生成出效果不錯的圖片,但它的訓練難度很高,擴散模型降低了圖像生成模型的訓練難度,還能生成比 GAN 更多元的圖像。

在夢想實現的 2021 和 2022 年,OpenAI 和 Google 都開始嘗試把文本信息加入到擴散生成的過程中,產生了今天的 GLIDE 模型。OpenAI 在思想上的突破,用 Transformer 去海量地理解圖片和文本,產生了 CLIP 模型,再用擴散模型在圖像生成中融入海量的圖文信息,優質的 AIGC 圖片終于誕生。

接下來,我們將圍繞一些問題進行討論。

1、從產品化、商業化的角度出發思考,目前 AIGC 的技術層面的發展會產生影響?

有兩個維度。第一個維度是在海量數據中尋找我們最想要的內容,第二個維度是在海量數據中得出新的內容,反向給予我們創造的靈感。

從 AI 本身的能力再進行泛化的話,一方面很多現有產品的使用體驗能得到巨大的提升,例如在筆記類的軟件中加入 AI 后,在寫作過程中能得到更好的體驗;另一方面,未來創意不強,生成能力較弱的人可能會被 AI 替代。

2、回到基本邏輯,我想確認下自己的理解是否正確:相較于 Transformer,ChatGPT 并不是在 AI 領域出現了一個顛覆性的技術創新,而只是在一個模式上加了人類的 feedback,設置了不斷迭代的參數,它自己越搞越聰明了。

過去的所有模型的進化,其實圍繞兩個方向在進化。第一個是 DNA,第二個是方法論。DNA 很像真實世界中材料的研發,方法論更像是真實世界中材料的使用。

Transformer 是 DNA 的進化,是更核心的突破。ChatGPT 是方法論,但它就更簡單了嗎?并不是的,它在探索的過程中經歷了很長的時間,同時要滿足很多先決條件,這個方法論才能得以運用。不論方法論突破還是 DNA 突破,都很有意義。

3、未來的生意模式會怎么樣?會不會更集中?圍繞這樣 ChatGPT 的模型,它會產生哪些創業方向?

可能有兩種商業模式,一種是 To B 的,就跟阿里云一樣,另外一種就是讓開發者在這種大模型上去 To C。不論是 DNA 還是在方法論上的突破,它都可能讓一個企業產生壟斷,產生巨頭效應。

ChatGPT 和用戶不斷互動,會得到源源不斷的反饋數據,數據也是一種資產,一種生產要素。這種生產要素產生的產品會是人類更高頻使用的東西,它的頻率越高,這種生產要素就越來越重要,反饋能夠創造的要素提升就越來越重要,同時帶來的經濟價值就越來越大。

4、會不會有規模效應或雙邊網絡效應?

我覺得背后既有這種網絡效應,又有一些規模效應。如果設想一下,第一個研發出來的這種中文大模型,它會快速地獲取市場上有限量的開發者,開發者在用它的產品去面向 To C 去獲取 C 端用戶,它的數據會源源不斷反饋回來,去優化它的效果,其實就會產生更強的壟斷效應。

5、從投資的角度,在 AIGC,我們應該投什么樣的團隊?

我覺得傳奇的團隊是有創造 DNA 能力的團隊,黃金的團隊是有能力把應用層和 AI 完美結合的能力,白銀的團隊就是打造 AI 領域的基礎設施的團隊。

36氪

媒體專欄

閱讀更多

金色財經

金色早8點

Odaily星球日報

澎湃新聞

Arcane Labs

深潮TechFlow

歐科云鏈

鏈得得

MarsBit

BTCStudy

Tags:AIGTRA比特幣GHTAIGENIUS價格Australian Kelpie比特幣sv發行多少枚Recovery Right Tokens

Luna
ETH:一文探討以太坊估值框架 ETH 如何納入超級資產類別?

原文作者:Michael Nadeau來源:The DeFi Report本周,我們將分享我們當前對第 1 層區塊鏈估值框架的看法,重點是以太坊.

1900/1/1 0:00:00
NFT:耐克擁抱NFT營銷 為其他進軍Web3的企業帶來什么經驗?

耐克進入NFT領域表明了數字營銷的獨特演變,這家著名的運動品牌已經將這項技術無縫整合到其NFT營銷策略中,為其他企業駕馭Web3生態系統提供了寶貴的經驗.

1900/1/1 0:00:00
NFT:尋找下一個藍籌 NFT 如何進行你自己的投資?

原文:Teng Yan,由 DeFi 之道編譯。在我們進入我的 2023 年展望之前,我想快速概述 12 月發生的事情,這是市場和企業傳統上平靜的一個月。許多人外出度假,新產品發布推遲到新年.

1900/1/1 0:00:00
NFT:NFT喜迎小陽春 是真回暖還是假牛市?

原文:《當下的NFT市場是過度杠桿化的「虛假牛市」嗎?》作者:0xLaughing,律動 BlockBeats 大多數藍籌在近一個月都迎來不同程度上漲自 FTX 暴雷后.

1900/1/1 0:00:00
WEB:談談嚇壞馬斯克的 ChatGPT 與沸騰的 Web3 AI 賽道

近段時間,人工智能領域的黑馬產品ChatGPT亮相成為備受關注的全球科技界大事件之一,最新的AI技術著實讓所有人驚艷了一把,馬斯克也在社交媒體表達了他的“驚嚇”.

1900/1/1 0:00:00
NFT:當下的NFT市場是過度杠桿化的「虛假牛市」嗎?

喜迎NFT「小陽春」,但仍要居安思危。撰文:0xLaughing 大多數藍籌在近一個月都迎來不同程度上漲自 FTX 暴雷后,加密市場的情緒在這起事件的陰霾中持續低落,NFT.

1900/1/1 0:00:00
ads