精品视频日韩无码,伊人久久无码av一区二区三区,久久艹视频国产视频,欧美成A人免费观看久久

  1. <tt id="u23fe"><i id="u23fe"><sub id="u23fe"></sub></i></tt>

      <b id="u23fe"><address id="u23fe"><kbd id="u23fe"></kbd></address></b>

      <source id="u23fe"><track id="u23fe"></track></source>
    1. 位置: IT常識(shí) - 正文

      【論文&模型講解】CLIP(Learning Transferable Visual Models From Natural Language Supervision)(模型論文是什么類(lèi)型)

      編輯:rootadmin
      【論文&模型講解】CLIP(Learning Transferable Visual Models From Natural Language Supervision) 文章目錄前言0 摘要1 Introduction and Motivating Work2 Approach2.0 模型整體結(jié)構(gòu)2.1 數(shù)據(jù)集2.2 選擇一種高效的預(yù)訓(xùn)練方法2.3 模型選擇與縮放2.4 訓(xùn)練3 實(shí)驗(yàn)3.1 zero-shot 遷移3.1.1 與 Visual N-grams 對(duì)比3.1.2 Prompt Engineering and Ensembling3.1.3 zero-shot CLIP 性能分析3.2 特征學(xué)習(xí)4 Comparison to Human Performance5 數(shù)據(jù)重疊分析6 Limitations7 結(jié)論前言

      推薦整理分享【論文&模型講解】CLIP(Learning Transferable Visual Models From Natural Language Supervision)(模型論文是什么類(lèi)型),希望有所幫助,僅作參考,歡迎閱讀內(nèi)容。

      文章相關(guān)熱門(mén)搜索詞:論文中模型分析,論文里面的模型是什么意思,論文里面的模型是什么意思,論文里面的模型是什么意思,論文里面的模型是什么意思,什么是論文模型,論文中模型分析,模型論文是什么類(lèi)型,內(nèi)容如對(duì)您有幫助,希望把文章鏈接給更多的朋友!

      多模態(tài)模型:CLIP 論文標(biāo)題:Learning Transferable Visual Models From Natural Language Supervision 論文網(wǎng)址:https://arxiv.org/abs/2103.00020 源碼網(wǎng)址:https://github.com/OpenAI/CLIP

      備注:本文內(nèi)容順序與原論文并不完全一致,是對(duì)于該論文的精讀與總結(jié),如需更多細(xì)節(jié)請(qǐng)參考原論文。

      ??CLIP 的方法很簡(jiǎn)單,但效果卻意外的好。CLIP 的遷移能力是非常強(qiáng)的,預(yù)訓(xùn)練好的模型能夠在任意一個(gè)視覺(jué)分類(lèi)的數(shù)據(jù)集上取得不錯(cuò)的效果,而且最重要的是它是 zero-shot 的,即完全沒(méi)有在這些數(shù)據(jù)集上做訓(xùn)練就能得到這么高的性能。作者做了很多實(shí)驗(yàn),在30多個(gè)數(shù)據(jù)集上做了測(cè)試,涵蓋的面也很廣,包括 OCR、視頻動(dòng)作檢測(cè)、坐標(biāo)定位、多種類(lèi)型的細(xì)分類(lèi)任務(wù)。CLIP 在不使用 ImageNet 訓(xùn)練集的情況下,也就是不使用 ImageNet 中128萬(wàn)張圖片中的任意一張進(jìn)行訓(xùn)練的情況下,直接 zero-shot 推理,就能獲得和之前有監(jiān)督訓(xùn)練好的 ResNet50 取得同樣的效果。

      ??CLIP 最大的貢獻(xiàn)就是打破了之前固定種類(lèi)標(biāo)簽的范式,無(wú)論是在收集數(shù)據(jù)集時(shí),還是在訓(xùn)練模型時(shí),都不需要像 ImageNet 那樣做 1000 個(gè)類(lèi),直接搜集圖片和文本的配對(duì)就行,然后去預(yù)測(cè)相似性。在收集數(shù)據(jù)、訓(xùn)練、推理時(shí)都更方便了,甚至可以 zero-shot 去做各種各樣的分類(lèi)任務(wù)。

      ??CLIP 打破了之前固定種類(lèi)標(biāo)簽的方法徹底解除了視覺(jué)模型的固有訓(xùn)練過(guò)程,引發(fā)了一大批后續(xù)工作。作者做了大量實(shí)驗(yàn),在許多數(shù)據(jù)集上 CLIP 的效果都很好,泛化能力也很強(qiáng),甚至在一些領(lǐng)域比人類(lèi)的 zero-shot 性能還好。CLIP 用一個(gè)模型就能解決大部分的分類(lèi)任務(wù),而且是 zero-shot 的方式,更何況只要利用好 CLIP 訓(xùn)練好的模型,再在其他領(lǐng)域里稍微適配一下,就能也很好的完成其他領(lǐng)域的任務(wù)。CLIP 的靈活性和高效性令人矚目。

      0 摘要

      ??SOTA計(jì)算機(jī)視覺(jué)系統(tǒng)被訓(xùn)練來(lái)預(yù)測(cè)一組固定的預(yù)定對(duì)象類(lèi)別。 這種受限的監(jiān)督形式限制了它們的通用性和適用性,因?yàn)樾枰~外的標(biāo)記數(shù)據(jù)來(lái)指定任何其他視覺(jué)概念。直接從有關(guān)圖像的原始文本中學(xué)習(xí)是一個(gè)很有希望的替代方案,它利用了更廣泛的監(jiān)督來(lái)源。

      ??作者證明了用一個(gè)非常簡(jiǎn)單的預(yù)訓(xùn)練任務(wù)就可以非常高效的且可擴(kuò)展的去學(xué)習(xí)一些最好的圖像表征,其中這個(gè)任務(wù)就是給定一些圖片和一些句子,模型需要去判斷哪一個(gè)句子(標(biāo)題)與哪一個(gè)圖像是配對(duì)的。使用的數(shù)據(jù)集是從網(wǎng)上收集的4億個(gè) 圖像-文本 對(duì)兒,有了這么大的數(shù)據(jù)集之后就可以選擇一種自監(jiān)督的訓(xùn)練方式去預(yù)訓(xùn)練一個(gè)大模型出來(lái)了(CLIP 使用的是對(duì)比學(xué)習(xí),對(duì)比學(xué)習(xí)有的文章稱為自監(jiān)督,有的文章稱為無(wú)監(jiān)督)。

      ??預(yù)訓(xùn)練之后,自然語(yǔ)言就被用來(lái)去引導(dǎo)視覺(jué)模型去做物體的分類(lèi)(CLIP 用的是 prompt,下文有講),分類(lèi)也不局限于已經(jīng)學(xué)過(guò)的視覺(jué)概念(即類(lèi)別),也可以擴(kuò)展到新的視覺(jué)概念,從而使預(yù)訓(xùn)練好的模型能夠直接在下游任務(wù)上做 zero-shot 推理。

      ??為了證明模型的有效性,作者在30多個(gè)不同的計(jì)算機(jī)視覺(jué)任務(wù)和數(shù)據(jù)集上做了測(cè)試,包含了諸如 OCR、視頻動(dòng)作檢測(cè)、坐標(biāo)定位和許多類(lèi)型的細(xì)粒度目標(biāo)分類(lèi)等任務(wù)。 CLIP 對(duì)于大多數(shù)任務(wù)都是非常好的,在不需要任何數(shù)據(jù)集的專(zhuān)門(mén)訓(xùn)練的情況下,能與完全用有監(jiān)督方式訓(xùn)練出來(lái)的模型取得同樣效果,甚至還會(huì)更高。 例如,CLIP 在不使用 ImageNet 那128萬(wàn)個(gè)訓(xùn)練集的情況下,就跟一個(gè)有監(jiān)督訓(xùn)練好的 ResNet50 打成平手。

      1 Introduction and Motivating Work

      ??在過(guò)去的幾年里,直接從原始文本中去預(yù)訓(xùn)練模型,在 NLP 領(lǐng)域中產(chǎn)生了革命性的成功(如BERT,GPT,T5 等)。無(wú)論是使用自回歸預(yù)測(cè)的方式,還是使用掩碼”完形填空“的方式,都是一種自監(jiān)督的訓(xùn)練方式,所以它們的目標(biāo)函數(shù)都是與下游任務(wù)無(wú)關(guān)的,只是想通過(guò)預(yù)訓(xùn)練得到一個(gè)比較好的、泛化能力強(qiáng)的特征,隨著計(jì)算資源的增多、模型的變大、數(shù)據(jù)變得更多,模型的能力也會(huì)得到穩(wěn)健的提升。這種其實(shí)都是 “text-to-text”(文字進(jìn)文字出),并不是再做分類(lèi)任務(wù),它的這種模型架構(gòu)也是與下游任務(wù)無(wú)關(guān)的。所以直接用在這種下游任務(wù)上時(shí),就不需要專(zhuān)門(mén)去研究一個(gè)針對(duì)那個(gè)任務(wù)或數(shù)據(jù)集的輸出頭和一些特殊處理。像 GPT-3 這樣的模型現(xiàn)在在許多任務(wù)中具有競(jìng)爭(zhēng)力,在大多數(shù)任務(wù)上,它幾乎不需要特定領(lǐng)域的訓(xùn)練數(shù)據(jù)就可以和之前精心設(shè)計(jì)過(guò)的那些網(wǎng)絡(luò)取得差不多的結(jié)果。

      ??這些結(jié)果表明,在這種 “text-to-text” 利用自監(jiān)督的方法去訓(xùn)練整個(gè)模型的框架下,大規(guī)模的沒(méi)有標(biāo)注的數(shù)據(jù) 要比 那些手工標(biāo)注的、質(zhì)量非常高的數(shù)據(jù)集反而要更有效。然而,在 CV 等其它領(lǐng)域,一般的做法還是在 ImageNet 這種數(shù)據(jù)集上去訓(xùn)練一個(gè)模型,這樣會(huì)使訓(xùn)練好的模型有諸多限制。那么 NLP 里的這套框架是否能用在 CV 里呢?從先前的工作看起來(lái)是可以的。

      ??本文主要是與 Learning Visual N-Grams from Web Data (2017年)的工作比較相似,他們都做了 zero-shot 的遷移學(xué)習(xí),但當(dāng)時(shí) Transformer 還未提出,也沒(méi)有大規(guī)模的且質(zhì)量較好的數(shù)據(jù)集,因此17年的這篇論文的效果并不是很好。有了 Transformer、對(duì)比學(xué)習(xí)、”完形填空“ 等強(qiáng)大的自監(jiān)督訓(xùn)練方式后,最近也有一些工作嘗試把圖片和文本結(jié)合起來(lái),去學(xué)得更好的特征,如 VirTex,ICMLM,ConVIRT,這些工作與 CLIP 很相似,但也有所區(qū)別,VirTex使用自回歸的預(yù)測(cè)方式做模型的預(yù)訓(xùn)練;ICMLM使用 ”完形填空“ 的方法做預(yù)訓(xùn)練;ConVIRT 與 CLIP 很相似,但只在醫(yī)學(xué)影像上做了實(shí)驗(yàn)。這三種方法都沒(méi)有在模型或數(shù)據(jù)集上使用很大的規(guī)模。

      VirTex:VirTex: Learning Visual Representations from Textual AnnotationsICMLM:Learning Visual Representations with Caption AnnotationsConVIRT:Contrastive Learning of Medical Visual Representations from Paired Images and Text

      ??模型方面,作者在視覺(jué)方面嘗試了8個(gè)模型,從 ResNet 到 ViT,其中最小的模型和最大的模型的計(jì)算量相差了大概100倍。作者發(fā)現(xiàn)遷移學(xué)習(xí)的效果跟模型的大小基本上成正相關(guān)。

      ??為了證明 CLIP 的泛化性能,作者測(cè)試了30多個(gè)數(shù)據(jù)集,在這些數(shù)據(jù)集上,CLIP 一般都能和之前精心設(shè)計(jì)的那些有監(jiān)督訓(xùn)練好的模型取得同樣的效果,甚至更好。作者為了進(jìn)一步驗(yàn)證 CLIP 學(xué)到的模型特征的有效性,暫時(shí)先不做 zero-shot,而是去做 linear-probe,即預(yù)訓(xùn)練模型訓(xùn)練好之后就把參數(shù)凍住,整個(gè) backbone 就不變了,只是從模型里面去抽特征,然后訓(xùn)練最后一層的分類(lèi)頭去做分類(lèi)任務(wù),在這種情況下,CLIP 也比之前在 ImageNet 訓(xùn)練出來(lái)的最好的模型效果要好,而且計(jì)算也更加高效。zero-shot CLIP 模型也更加的穩(wěn)健,當(dāng) CLIP 的模型效果與有監(jiān)督訓(xùn)練好的模型在 ImageNet 上的性能效果持平時(shí),CLIP 的泛化性能也更好。

      2 Approach

      CLIP 方法的核心就是利用自然語(yǔ)言的監(jiān)督信號(hào)來(lái)訓(xùn)練一個(gè)比較好的視覺(jué)模型。

      為什么要用自然語(yǔ)言的監(jiān)督信號(hào)來(lái)訓(xùn)練視覺(jué)模型?

      不需要再去標(biāo)注這些數(shù)據(jù)了。像 ImageNet 需要先定好 1000 個(gè)類(lèi),而這 1000 各類(lèi)也需要之前篩選選好,根據(jù)這些類(lèi)去下載圖片,再清理數(shù)據(jù)集,然后標(biāo)注,這個(gè)過(guò)程比較復(fù)雜。如果只需要下載 圖片-文本 對(duì)兒,別的標(biāo)注都不需要做,那么數(shù)據(jù)的規(guī)模很容易就變大,而且現(xiàn)在的監(jiān)督信號(hào)是一個(gè)文本,而不是這種 N 選 1 的標(biāo)簽,模型的輸入輸出自由度就大了很多。因?yàn)橛?xùn)練時(shí)把圖片和文本綁定到一起,那么訓(xùn)練的特征就不再僅是一個(gè)視覺(jué)特征了,而是一個(gè)多模態(tài)的特征,也就很容易去做 zero-shot 的遷移學(xué)習(xí)。如果只是做單模態(tài)的自監(jiān)督學(xué)習(xí),無(wú)論是單模態(tài)的對(duì)比學(xué)習(xí)(如MOCO),還是單模態(tài)的掩碼學(xué)習(xí)(如MAE),都只能學(xué)到視覺(jué)特征,而無(wú)法與自然語(yǔ)言聯(lián)系到一起,這樣還是很難做 zero-shot 遷移。

      總之,用自然語(yǔ)言的監(jiān)督信號(hào)來(lái)訓(xùn)練視覺(jué)模型是非常有潛力的。

      2.0 模型整體結(jié)構(gòu)

      (1) Contrastive pre-training

      模型的輸入是若干個(gè) 圖像-文本 對(duì)兒(如圖最上面的數(shù)據(jù)中圖像是一個(gè)小狗,文本是 ”P(pán)epper the aussie pup”)。

      圖像部分:圖像通過(guò)一個(gè) Image Encoder 得到一些特征,這個(gè) encoder 既可以是 ResNet,也可以是 Vision Transformer。假設(shè)每個(gè) training batch 都有 N 個(gè) 圖像-文本 對(duì)兒,那么就會(huì)得到 N 個(gè)圖像的特征(如圖 I1,I2,…,INI_1,I_2,…,I_NI1?,I2?,…,IN?)。

      文本部分:文本通過(guò)一個(gè) Text Encoder 得到一些文本的特征。同樣假設(shè)每個(gè) training batch 都有 N 個(gè) 圖像-文本 對(duì)兒,那么就會(huì)得到N 個(gè)文本的特征(如圖 T1,T2,…,TNT_1,T_2,…,T_NT1?,T2?,…,TN?)。

      ??CLIP 就是在以上這些特征上去做對(duì)比學(xué)習(xí),對(duì)比學(xué)習(xí)非常靈活,只需要正樣本和負(fù)樣本的定義,其它都是正常套路。這里配對(duì)的 圖像-文本 對(duì)兒就是正樣本(即下圖中對(duì)角線(藍(lán)色)部分, I1?T1,I2?T2,…,IN?TNI_1·T_1,I_2·T2,…, I_N·T_NI1??T1?,I2??T2,…,IN??TN?),配對(duì)的圖像和文本所描述的是同一個(gè)東西,那么矩陣中剩下的所有不是對(duì)角線上的元素(圖中白色部分)就是負(fù)樣本了。因此,有 NNN 個(gè)正樣本,N2?NN^2-NN2?N 個(gè)負(fù)樣本。有了正、負(fù)樣本后,模型就可以通過(guò)對(duì)比學(xué)習(xí)的方式去訓(xùn)練,不需要任何手工的標(biāo)注。對(duì)于這種無(wú)監(jiān)督的預(yù)訓(xùn)練方式,如對(duì)比學(xué)習(xí),是需要大量數(shù)據(jù)的,OpenAI專(zhuān)門(mén)去收集了這么一個(gè)數(shù)據(jù)集,其中有4億個(gè) 圖像-文本 對(duì)兒,且數(shù)據(jù)清理的比較好,質(zhì)量比較高,這也是CLIP如此強(qiáng)大的主要原因之一。

      (2) Create dataset classi?er from label text

      ??CLIP 經(jīng)過(guò)預(yù)訓(xùn)練后只能得到視覺(jué)上和文本上的特征,并沒(méi)有在任何分類(lèi)的任務(wù)上去做繼續(xù)的訓(xùn)練或微調(diào),所以它沒(méi)有分類(lèi)頭,那么 CLIP 是如何做推理的呢?

      ??作者提出 prompt template:以 ImageNet 為例,CLIP 先把 ImageNet 這1000個(gè)類(lèi)(如圖中"plane", “car”, “dog”, …, “brid”)變成一個(gè)句子,也就是將這些類(lèi)別去替代 “A photo of a {object}” 中的 “{object}” ,以 “plane” 類(lèi)為例,它就變成"A photo of a plane",那么 ImageNet 里的1000個(gè)類(lèi)別就都在這里生成了1000個(gè)句子,然后通過(guò)先前預(yù)訓(xùn)練好的 Text Encoder 就會(huì)得到1000個(gè)文本的特征。

      ??其實(shí)如果直接用單詞(“plane”, “car”, “dog”, …, “brid”)直接去抽取文本特征也是可以的,但是因?yàn)樵谀P皖A(yù)訓(xùn)練時(shí),與圖像對(duì)應(yīng)的都是句子,如果在推理的時(shí)候,把所有的文本都變成了單詞,那這樣就跟訓(xùn)練時(shí)看到的文本不太一樣了,所以效果就會(huì)有所下降。此外,在推理時(shí)如何將單詞變成句子也是有講究的,作者也提出了 prompt engineering 和 prompt ensemble,而且不需要重新訓(xùn)練模型。

      (3) Use for zero-shot prediction

      ??在推理時(shí),無(wú)論來(lái)了任何一張圖片,只要把這張圖片扔給 Image Encoder,得到圖像特征(綠色框,I1I_1I1?)后,就拿這個(gè)圖片特征去跟所有的文本特征(紫色框,T1,T2,…,TNT_1,T_2,…,T_NT1?,T2?,…,TN?)去做 cosine similarity(余弦相似度)計(jì)算相似度(I1?T1,I1?T2,I1?T3,…,I1?TNI_1·T_1,I_1·T2, I_1·T3,…, I_1·T_NI1??T1?,I1??T2,I1??T3,…,I1??TN?),來(lái)看這張圖片與哪個(gè)文本最相似,就把這個(gè)文本特征所對(duì)應(yīng)的句子挑出來(lái),從而完成這個(gè)分類(lèi)任務(wù)。

      ??在實(shí)際應(yīng)用中,這個(gè)類(lèi)別的標(biāo)簽也是可以改的,不必非得是 ImageNet 中的1000個(gè)類(lèi),可以換成任何的單詞;這個(gè)圖片也不需要是 ImageNet 的圖片,也可以是任何的圖片,依舊可以通過(guò)算相似度來(lái)判斷這圖中含有哪些物體。即使這個(gè)類(lèi)別標(biāo)簽是沒(méi)有經(jīng)過(guò)訓(xùn)練的,只要圖片中有某個(gè)物體也是有很大概率判斷出來(lái)的,這就是 zero-shot。但如果像之前的那些方法,嚴(yán)格按照1000個(gè)類(lèi)去訓(xùn)練分類(lèi)頭,那么模型就只能判斷出這1000個(gè)類(lèi),這1000個(gè)類(lèi)之外的所有內(nèi)容都將判斷不出來(lái)。

      ??CLIP 徹底擺脫了 categorical label 的限制,無(wú)論在訓(xùn)練時(shí),還是在推理時(shí),都不需要有這么一個(gè)提前定好的標(biāo)簽列表,任意給出一張圖片,都可以通過(guò)給模型不同的文本句子,從而知道這張圖片里有沒(méi)有我想要的物體。

      ??CLIP 把視覺(jué)的語(yǔ)義和文字的語(yǔ)義聯(lián)系到了一起,學(xué)到的特征語(yǔ)義性非常強(qiáng),遷移的效果也非常好。如圖左側(cè)部分是在 ImageNet 上訓(xùn)練好的 ResNet101,右側(cè)是 CLIP 訓(xùn)練出的 ViT-L,在 ImageNet 上 ResNet 和 CLIP 效果相同,但在 ImageNetV2、ImageNet-R、ObjectNet、ImageNet Sketch、ImageNet-A上,ResNet 的性能明顯就不行了,遷移的效果慘目忍睹,但對(duì)于 CLIP 來(lái)說(shuō),它的效果始終都非常好。這也說(shuō)明了 CLIP 因?yàn)楹妥匀徽Z(yǔ)言處理的結(jié)合,導(dǎo)致 CLIP 學(xué)出來(lái)的視覺(jué)特征和我們用語(yǔ)言所描述的某個(gè)物體產(chǎn)生了強(qiáng)烈的聯(lián)系。

      2.1 數(shù)據(jù)集

      ??現(xiàn)有工作主要使用了三個(gè)數(shù)據(jù)集,MS-COCO、Visual Genome 和 YFCC100M。 雖然 MS-COCO 和 Visual Genome 的標(biāo)注,但是數(shù)據(jù)量太少了,每個(gè)都有大約10萬(wàn)張訓(xùn)練照片。 相比之下,其他計(jì)算機(jī)視覺(jué)系統(tǒng)是在多達(dá)35億張 Instagram 圖片上訓(xùn)練的。 擁有1億張照片的 YFCC100M 是一個(gè)可能的替代方案,但標(biāo)注質(zhì)量比較差,每個(gè)圖像配對(duì)的文本信息都是自動(dòng)生成的,許多圖片使用自動(dòng)生成的文件名,如 20160716113957.jpg 作為 “標(biāo)題” 或包含相機(jī)曝光設(shè)置的 “說(shuō)明”(反正就是和圖片的信息是不匹配的)。 如果對(duì) YFCC100M 進(jìn)行清洗,只保留帶有自然語(yǔ)言標(biāo)題或英文描述的圖像,數(shù)據(jù)集縮小了6倍,大概只有1500萬(wàn)張照片, 這個(gè)規(guī)模就與與ImageNet的大小大致相同。 CLIP 使用的數(shù)據(jù)集是 OpenAI 新收集的一個(gè)數(shù)據(jù)集,稱為 WIT(WebImageText)。

      2.2 選擇一種高效的預(yù)訓(xùn)練方法

      ??首先作者嘗試了一個(gè)跟 VirTex 的工作非常相似的方法,即圖像這邊使用卷積神經(jīng)網(wǎng)絡(luò),然后文本方面用 Transformer,都是從頭開(kāi)始訓(xùn)練的,任務(wù)就是給定一張圖片,要去預(yù)測(cè)這張圖片所對(duì)應(yīng)的文本,即caption。

      ??為什么使用對(duì)比學(xué)習(xí)???如果給定一張圖片,然后去預(yù)測(cè)它對(duì)應(yīng)的文本的話,需要逐字逐句地去預(yù)測(cè)這個(gè)文本,那么這個(gè)任務(wù)就太難了,因?yàn)閷?duì)于一張圖片來(lái)說(shuō),可以有很多不同的描述,文本之間的差距將是非常巨大的。如果用這種預(yù)測(cè)型的任務(wù)去預(yù)訓(xùn)練模型的話,它就會(huì)有太多的可能性了,那么這個(gè)模型訓(xùn)練的就非常慢。 ??作者發(fā)現(xiàn)如果把訓(xùn)練任務(wù)變成對(duì)比的任務(wù),也就是說(shuō)只需要判斷這個(gè)圖片和這個(gè)文本是不是配對(duì)的,那么這個(gè)任務(wù)就簡(jiǎn)單了很多,約束一下就放寬了很多。在 Figure 2中僅僅把預(yù)測(cè)型的目標(biāo)函數(shù)換成對(duì)比型的目標(biāo)函數(shù),訓(xùn)練效率一下就提高了4倍。

      Figure 2. CLIP is much more ef?cient at zero-shot transfer than our image caption baseline. Although highly expressive, we found that transformer-based language models are relatively weak at zero-shot ImageNet classi?cation. Here, we see that it learns 3x slower than a baseline which predicts a bag-of-words(BoW) encoding of the text. Swapping the prediction objective for the contrastive objective of CLIP further improves ef?ciency another 4x.

      ??如圖 Figure 2,藍(lán)線部分就是基于 Transformer 做預(yù)測(cè)型任務(wù)(如 GPT)的訓(xùn)練效率;橘黃色線是使用 BOW 的方式做預(yù)測(cè)任務(wù),也就是說(shuō)不需要逐字逐句地去預(yù)測(cè)文本,文本已經(jīng)被全局化地抽成了一些特征,約束也就放寬了,可以看到約束放寬以后訓(xùn)練效率提高了三倍;如果進(jìn)一步放寬約束,即不在去預(yù)測(cè)單詞,只是判斷圖片和文本是否匹配(圖中綠線),這個(gè)效率又進(jìn)一步提高了4倍。

      Figure 3. Numpy-like pseudocode for the core of an implementation of CLIP.

      如圖 Figure 3,是對(duì)應(yīng) Figure 1 模型總體結(jié)構(gòu)的偽代碼:

      圖像的輸入 I[n,h,w,c]I[n, h, w, c]I[n,h,w,c] ,文本的輸入 T[n,l]T[n, l]T[n,l],其中 nnn 就是 batch size,lll 是序列長(zhǎng)度。圖像和文本的輸入分別通過(guò) Image Encoder 和 Text Encoder 得到圖像和文本的特征 If,TfI_f,T_fIf?,Tf?,其中 Image Encoder 可以是 ResNet 或 Vision Transformer,Text Encoder 可以是 CBOW 或 Text Transformer。在得到 IfI_fIf? 和 TfT_fTf? 后,這里還有一個(gè)投射層 Wi,WtW_i,W_tWi?,Wt?,用來(lái)學(xué)習(xí)如何從單模態(tài)變成多模態(tài),然后再做 L2 歸一化,就得到了用來(lái)對(duì)比學(xué)習(xí)的特征 Ie,TeI_e,T_eIe?,Te?。有了 nnn 個(gè)圖像的特征和 nnn 個(gè)文本的特征之后,接下來(lái)就計(jì)算 cosine similarity,算得的 相似度也就是用來(lái)做分類(lèi)的 logitslogitslogits。然后 logitslogitslogits 和 ground truth 的 labelslabelslabels 計(jì)算交叉熵?fù)p失,lossi,losstloss_i,loss_tlossi?,losst?分別是 Image 和 Text 的 loss,最后求平均就得到了 losslossloss。

      ??因?yàn)槭褂玫臄?shù)據(jù)集太大了,模型不太會(huì)有過(guò)擬合(over-fitting)的問(wèn)題,所以他們的實(shí)現(xiàn)就比之前的工作要簡(jiǎn)單很多。同時(shí)也因?yàn)閿?shù)據(jù)集很大,也不需要做太多的數(shù)據(jù)增強(qiáng),作者唯一使用的數(shù)據(jù)增強(qiáng)就是隨機(jī)裁剪。

      ??在訓(xùn)練 CLIP 時(shí),Image Encoder 和 Text Encoder 都不需要提前進(jìn)行預(yù)訓(xùn)練的。最后做投射時(shí),并沒(méi)有用非線性的投射層(non-linear projection),而是使用線性的投射層(linear projection)。對(duì)于以往的對(duì)比學(xué)習(xí)(如SimCLR,MOCO)用非線性的投射層會(huì)比用線性的投射層帶來(lái)將近10個(gè)點(diǎn)的性能提升,但作者說(shuō)在多模態(tài)的預(yù)訓(xùn)練過(guò)程中線性與非線性差別不大,他們認(rèn)為非線性的投射層應(yīng)該只是用來(lái)適配純圖片的單模態(tài)學(xué)習(xí)。

      ??因?yàn)?CLIP 模型太大了,數(shù)據(jù)集也太大了,訓(xùn)練起來(lái)太耗時(shí),所以不太好做調(diào)參的工作,所以在算對(duì)比學(xué)習(xí)的目標(biāo)函數(shù)時(shí),將 temperature 設(shè)置為可學(xué)習(xí)的 log-parametized 乘法標(biāo)量(以往的對(duì)比學(xué)習(xí)中 temperature 是個(gè)非常重要的超參數(shù),稍微調(diào)整就會(huì)使最后的性能發(fā)生很大的改變),temperature 在模型訓(xùn)練時(shí)被優(yōu)化了,而不需要當(dāng)成一個(gè)超參數(shù)再去調(diào)參。

      2.3 模型選擇與縮放【論文&模型講解】CLIP(Learning Transferable Visual Models From Natural Language Supervision)(模型論文是什么類(lèi)型)

      ??在視覺(jué)方面,模型既可以選擇 ResNet,也可以是 ViT,文本上基本就是 Transformer,模型的選擇都是很常規(guī)的,只有很小的改動(dòng),但這些改動(dòng)都是為了訓(xùn)練的更高效、性能更好。

      2.4 訓(xùn)練

      ??在視覺(jué)方面,作者一共訓(xùn)練了 8 個(gè)模型,5 個(gè) ResNets 和 3 個(gè) Vision Transformers:

      對(duì)于 ResNets,作者訓(xùn)練一個(gè)Resnet50、一個(gè)ResNet101,然后再訓(xùn)練三個(gè)Resnet50:它們根據(jù)EfficientNet的方式,把模型里的 channel 寬度、模型深度和模型大小做了調(diào)整,得到了三個(gè) ResNet 的變體,即RN50x4、RN50x16 和 RN50x64,計(jì)算量分別是 ResNet 的 4、16、64 倍。對(duì)于 Vision Transformers,作者嘗試了 ViT-B/32,ViT-B/16 和 ViT-L/14(其中 32、16、14都是 patch 的大小)。

      ??對(duì)于所有的模型,都訓(xùn)練 32 epochs,且使用 Adam優(yōu)化器。對(duì)于所有超參數(shù),作者簡(jiǎn)單的做了一些 Grid Search,Random Search 和手動(dòng)調(diào)整,為了調(diào)參快一些,都是基于其中最小的 ResNet50 去做的且只訓(xùn)練 1 epoch,對(duì)于更大的模型作者就沒(méi)有進(jìn)行調(diào)參了。

      ??訓(xùn)練時(shí)作者使用的 batch size 為 32768,很顯然模型訓(xùn)練是在很多機(jī)器上起做分布式訓(xùn)練。同時(shí)也用到了混精度訓(xùn)練,不僅能加速訓(xùn)練,而且能省內(nèi)存。此外作者也做了很多其他省內(nèi)存的工作。

      ??對(duì)于最大的 ResNet 來(lái)說(shuō),即上文中的RN50x64, 在 592 個(gè) V100 的GPU上訓(xùn)練了18天;而對(duì)于最大的 ViT 來(lái)說(shuō),在 256 個(gè) V100 GPU 上訓(xùn)練只花了 12 天。證實(shí)了訓(xùn)練一個(gè) ViT 是要比訓(xùn)練一個(gè) ResNet 更高效的。因?yàn)?ViT-L/14 的效果最好,作者又拿與訓(xùn)練好的 ViT-L/14 再在數(shù)據(jù)集上 fine-tune 了 1 epoch,而且用了更大的圖片(336×336),這種在更大尺寸上 fine-tune 從而獲得性能提升的思路來(lái)自于 Fixing the train-test resolution discrepancy,最后這個(gè)模型就稱為 ViT-L/14@336px。如無(wú)特殊指明,本文中所有 “CLIP” 結(jié)果都使用了我們發(fā)現(xiàn)效果最好的這個(gè)模型(ViT-L/14@336px)。

      3 實(shí)驗(yàn)3.1 zero-shot 遷移3.1.1 與 Visual N-grams 對(duì)比

      ??Visual N-grams 首次以上述方式研究了 zero-shot 向現(xiàn)有圖像分類(lèi)數(shù)據(jù)集的遷移。如 Table1 所示,作者做了與之前最相似的工作 Visual N-grams 的對(duì)比,Visual N-grams 在 ImageNet 的效果只有 11.5% 的準(zhǔn)確率,而 CLIP 能達(dá)到 76.2%,CLIP 在完全沒(méi)有用任何一張那128萬(wàn)張訓(xùn)練圖片的情況下,直接 zero-shot 遷移就與原始的 ResNet50 打成平手。

      3.1.2 Prompt Engineering and Ensembling

      ??prompt 主要是在做 fine-tune 或做推理時(shí)的一種方法,而不是在預(yù)訓(xùn)練階段,所以不需要那么多的計(jì)算資源,并且效果也很好。prompt 指的是 提示,即文本的引導(dǎo)作用。

      為什么需要做 Prompt Engineering and Prompt Ensembling?

      polysemy(一詞多義):如果在做文本和圖片匹配的時(shí)候,每次只用標(biāo)簽對(duì)應(yīng)的那 一個(gè)單詞 去做文本上的特征抽取,那么很容易遇到這種問(wèn)題。例如在 ImageNet 中,同時(shí)包含兩個(gè)類(lèi),一類(lèi)是 “construction crane”,一類(lèi)是 “crane”,在相應(yīng)的語(yǔ)境下這兩個(gè) “crane” 的意義是不一樣的,在建筑工地的環(huán)境下指的是“起重機(jī)”,作為動(dòng)物又指的是“鶴”,這時(shí)就有歧義性。當(dāng)然別的數(shù)據(jù)集也有這種問(wèn)題,如 Oxford-IIIT Pet,有一類(lèi)叫 boxer,這里指的是狗的一種類(lèi)別,但對(duì)于文本編碼器來(lái)說(shuō)它就可能翻譯成“拳擊手”,那這樣提取特征就是不對(duì)的??傊?#xff0c;如果只是單獨(dú)一個(gè)單詞去做 prompt,那么很容易出現(xiàn)歧義性的問(wèn)題。做預(yù)訓(xùn)練時(shí),匹配的文本一般都是一個(gè)句子,很少是一個(gè)單詞。如果推理時(shí)傳進(jìn)來(lái)的是一個(gè)單詞的話,很容易出現(xiàn) distribution gap,提取的特征可能不是很好。

      ??基于以上兩種問(wèn)題作者提出了 prompt template(提示模板),“A photo of a { label }”。首先所有的標(biāo)簽都變成了一個(gè)句子,就不容易出現(xiàn) distribution gap。而且 label 也一般都是名詞,也能減少歧義性的問(wèn)題。使用 prompt template 后準(zhǔn)確率提升了 1.3%。

      ??Prompt Engineering 不只給出這么一個(gè)提示模板,作者發(fā)現(xiàn)如果提前知道一些信息,這樣對(duì) zero-shot 的推理是很有幫助的。假如現(xiàn)在做的事 Oxford-IIIT Pet 這個(gè)數(shù)據(jù)集,這里面的類(lèi)別一定是寵物,那么提示模板可以變?yōu)?“A photo of a { label }, a type of pet.”,把解空間縮小了很多,很容易得到正確的答案。當(dāng)對(duì)于 OCR(文字識(shí)別)數(shù)據(jù)集來(lái)說(shuō),如果在想找的文本上添加雙引號(hào),那么模型也是更容易找到答案。

      ??Prompt Ensembling:使用多個(gè)提示模版,做多次推理,最后再把結(jié)果結(jié)合起來(lái),一般都會(huì)取得更好的結(jié)果。在源碼 CLIP/notebooks/Prompt_Engineering_for_ImageNet.ipynb 文件中,這里提供了 80 種提示模板,以便適用于不同的圖片。

      3.1.3 zero-shot CLIP 性能分析

      Figure 5.

      ??作者在 27 個(gè)數(shù)據(jù)集上衡量了 CLIP 做 zero-shot 遷移的效果,如圖 Figure 5,比較的雙方分別是 做 zero-shot 的 CLIP 和 在 ResNet50 上做 linear probe(linear probe:把預(yù)訓(xùn)練好的模型中的參數(shù)凍結(jié),只從里面去提取特征,然后只訓(xùn)練最后一層即 FC 分類(lèi)頭層)。這個(gè) ResNet 是在 ImageNet 有監(jiān)督訓(xùn)練好的模型,從中去抽特征,然后在下游任務(wù)中去添加新的分類(lèi)頭,在新的分類(lèi)頭上做 linear probe 的微調(diào)。

      Figure 5. Zero-shot CLIP is competitive with a fully supervised baseline. Across a 27 dataset eval suite, a zero-shot CLIP classi?er outperforms a fully supervised linear classi?er ?tted on ResNet-50 features on 16 datasets, including ImageNet.

      ??圖中綠色部分就是 CLIP 優(yōu)于 ResNet50 的,藍(lán)色部分就是劣于 ResNet50 的。zero-shot CLIP 在 16 個(gè)數(shù)據(jù)集上都取得不錯(cuò)的效果,這種普通的對(duì)物體進(jìn)行分類(lèi)的數(shù)據(jù)集來(lái)說(shuō) CLIP 的表現(xiàn)都比較好。但一些難的數(shù)據(jù)集,如 DTD(對(duì)紋理進(jìn)行分類(lèi)),CLEVRCounts(對(duì)圖片中物體計(jì)數(shù)),對(duì)于 CLIP 就很難,而且很抽象,先前訓(xùn)練時(shí)也沒(méi)有這種相關(guān)標(biāo)簽,所以 CLIP 在這些數(shù)據(jù)集上表現(xiàn)得不好。對(duì)于這種特別難的任務(wù)如果只做 zero-shot 不太合理,更適合去做 few-shot 的遷移,對(duì)于這種需要特定領(lǐng)域知識(shí)的任務(wù)(如腫瘤分類(lèi)等)即是對(duì)于人類(lèi)來(lái)說(shuō)沒(méi)有先驗(yàn)知識(shí)也是很難得。

      Figure 6.

      ??作者對(duì) zero-shot CLIP,few-shot CLIP 和之前 few-shot 的一些方法(預(yù)訓(xùn)練好凍結(jié)參數(shù),然后做 linear probe,在下游任務(wù)數(shù)據(jù)集上進(jìn)行訓(xùn)練)做了一些比較。這里 CLIP 的 few-shot 是將 Image Encoder 的參數(shù)凍結(jié),然后做 linear probe。

      Figure 6. Zero-shot CLIP outperforms few-shot linear probes. Zero-shot CLIP matches the average performance of a 4-shot linear classi?er trained on the same feature space and nearly matches the best results of a 16-shot linear classi?er across publicly available models. For both BiT-M and SimCLRv2, the best performing model is highlighted. Light gray lines are other models in the eval suite. The 20 datasets with at least 16 examples per class were used in this analysis.

      ??Figure 6 橫坐標(biāo)是數(shù)據(jù)集中每一個(gè)類(lèi)別里用了多少訓(xùn)練樣本,0 的話就是 zero-shot 了,其他方法因?yàn)闆](méi)有和自然語(yǔ)言的結(jié)合無(wú)法做 zero-shot,最低也得從 one-shot 開(kāi)始。

      ??縱坐標(biāo)是平均準(zhǔn)確度,是在 20 個(gè)數(shù)據(jù)集上取的平均(來(lái)源于 Figure 5 中的27 個(gè)數(shù)據(jù)集,其中有 7 個(gè)數(shù)據(jù)集的部分類(lèi)別訓(xùn)練樣本不足 16 個(gè),無(wú)法滿足橫坐標(biāo)要求,因此舍棄了)。

      ??BiT(Big Transfer)主要為遷移學(xué)習(xí)量身定做,是 few-shot 遷移學(xué)習(xí)表現(xiàn)最好的工作之一。而 zero-shot CLIP 直接就和最好的 BiT 持平。如圖紫色曲線,當(dāng)每個(gè)類(lèi)別僅僅用1、2、4個(gè)訓(xùn)練樣本時(shí)還不如 zero-shot 的效果,這也證明了用文本來(lái)引導(dǎo)多模態(tài)學(xué)習(xí)是多么的強(qiáng)大。隨著訓(xùn)練樣本的增多, few-shot CLIP 的效果是最好的,不僅超越了之前的方法,也超越了 zero-shot CLIP。

      3.2 特征學(xué)習(xí)

      ??這里作者討論了下游任務(wù)用全部數(shù)據(jù),CLIP 的效果會(huì)如何。特征學(xué)習(xí)一般都是先預(yù)訓(xùn)練一個(gè)模型,然后在下游任務(wù)上用全部的數(shù)據(jù)做微調(diào)。這里在下游任務(wù)上用全部數(shù)據(jù)就可以和之前的特征學(xué)習(xí)方法做公平對(duì)比了。

      ??衡量模型的性能最常見(jiàn)的兩種方式就是通過(guò) linear probe 或 fine-tune 后衡量其在各種數(shù)據(jù)集上的性能。linear probe 就是把預(yù)訓(xùn)練好的模型參數(shù)凍結(jié),然后在上面訓(xùn)練一個(gè)分類(lèi)頭;fine-tune 就是把整個(gè)網(wǎng)絡(luò)參數(shù)都放開(kāi),直接去做 end-to-end 的學(xué)習(xí)。fine-tune 一般是更靈活的,而且在下游數(shù)據(jù)集比較大時(shí),fine-tune往往比 linear probe 的效果要好很多。

      ??但本文作者選用了 linear probe,因?yàn)?CLIP 的工作就是用來(lái)研究這種跟數(shù)據(jù)集無(wú)關(guān)的預(yù)訓(xùn)練方式,如果下游數(shù)據(jù)集足夠大,整個(gè)網(wǎng)絡(luò)都放開(kāi)再在數(shù)據(jù)集上做 fine-tune 的話,就無(wú)法分別預(yù)訓(xùn)練的模型到底好不好了(有可能預(yù)訓(xùn)練的模型并不好,但是在 fine-tune 的過(guò)程中經(jīng)過(guò)不斷的優(yōu)化,導(dǎo)致最后的效果也很好)。而 linear probe 這種用線性分類(lèi)頭的方式,就不太靈活,整個(gè)網(wǎng)絡(luò)大部分都是凍住的,只有最后一層 FC 層是可以訓(xùn)練的,可學(xué)習(xí)的空間比較小,如果預(yù)訓(xùn)練的模型不太好的話,即使在下游任務(wù)上訓(xùn)練很久,也很難優(yōu)化到特別好的結(jié)果,所以更能反映出預(yù)訓(xùn)練模型的好壞。此外,作者選用 linear probe 的另一個(gè)原因就是不怎么需要調(diào)參,CLIP 調(diào)參的話太耗費(fèi)資源了,如果做 fine-tune 就有太多可做的調(diào)參和設(shè)計(jì)方案了。

      Figure 10.

      Figure 10. Linear probe performance of CLIP models in comparison with state-of-the-art computer vision models, including Ef?cientNet, MoCo, Instagram-pretrained ResNeXt models, BiT, ViT, SimCLRv2, BYOL, and the original ResNet models. (Left) Scores are averaged over 12 datasets studied by Kornblith et al. (2019). (Right) Scores are averaged over 27 datasets that contain a wider variety of distributions. Dotted lines indicate models ?ne-tuned or evaluated on images at a higher-resolution than pre-training. See Table 10 for individual scores and Figure 20 for plots for each dataset.

      ??如 Figure 10 右圖所示,是在先前提到的那 27 個(gè)數(shù)據(jù)集進(jìn)行比較,CLIP(實(shí)心、空心紅色五角星)比所有的其他模型都要好,不光是上文中講過(guò)的 zero-shot 和 few-shot,現(xiàn)在用全部的數(shù)據(jù)去做訓(xùn)練時(shí) CLIP 依然比其他模型強(qiáng)得多。

      ??如 Figure 10 左圖所示,之前有工作提出了這 12 個(gè)數(shù)據(jù)集的集合,很多人都是在這些數(shù)據(jù)集上做的比較,CLIP-ViT 的效果是很好的,但是 CLIP-ResNet 就要比別的方法差了。但是這 12 個(gè)數(shù)據(jù)集的集合和 ImageNet 的關(guān)系很大,如果模型之前在 ImageNet 做過(guò)有監(jiān)督的預(yù)訓(xùn)練,那么效果肯定是更好的,因此 CLIP-ResNet 并沒(méi)有那么好也是可以理解的。

      Figure 11.

      Figure 11. CLIP’s features outperform the features of the best ImageNet model on a wide variety of datasets. Fitting a linear classi?er on CLIP’s features outperforms using the Noisy Student Ef?cientNet-L2 on 21 out of 27 datasets.

      ??隨后作者又將 CLIP 與 之前在 ImageNet 上表現(xiàn)最好的模型 EfficientNet L2 NS(最大的 EfficientNet 并使用為標(biāo)簽的方式訓(xùn)練)進(jìn)行對(duì)比。在 27 個(gè)數(shù)據(jù)集中,CLIP 在其中 21 個(gè)數(shù)據(jù)集都超過(guò)了 EfficientNet,而且很多數(shù)據(jù)集都是大比分超過(guò),少部分?jǐn)?shù)據(jù)集也僅僅是比 EfficientNet 稍低一點(diǎn)點(diǎn)。

      Figure 13.

      4 Comparison to Human Performance

      Table 2. Comparison of human performance on Oxford IIT Pets. As in Parkhi et al. (2012), the metric is average per-class classi?cation accuracy. Most of the gain in performance when going from the human zero shot case to the human one shot case is on images that participants were highly uncertain on. “Guesses” refers to restricting the dataset to where participants selected an answer other than “I don’t know”, the “majority vote” is taking the most frequent (exclusive of ties) answer per image.

      Figure 16. The hardest problems for CLIP also tend to be the hardest problems for humans. Here we rank image categories by dif?culty for CLIP as measured as probability of the correct label.

      5 數(shù)據(jù)重疊分析

      ??為了分析是否是因?yàn)楸疚氖褂玫臄?shù)據(jù)集與其他的數(shù)據(jù)集之間有重疊而導(dǎo)致模型的性能比較好,作者在這部分做了一些去重的實(shí)驗(yàn),最后的結(jié)論還是 CLIP 本身的泛化性能比較好。

      6 Limitations

      ??(1) CLIP 在很多數(shù)據(jù)集上平均來(lái)看都能和普通的 baseline 模型(即在 ImageNet 訓(xùn)練的 ResNet50)打成平手,但是在大多數(shù)數(shù)據(jù)集上,ResNet50 并不是 SOTA,與最好的模型比還是有所差距的,CLIP 很強(qiáng),但又不是特別強(qiáng)。實(shí)驗(yàn)表明,如果加大數(shù)據(jù)集,也加大模型的話,CLIP 的性能還能繼續(xù)提高,但如果想把各個(gè)數(shù)據(jù)集上的 SOTA 的差距彌補(bǔ)上的話,作者預(yù)估還需要在現(xiàn)在訓(xùn)練 CLIP 的計(jì)算量的基礎(chǔ)上的 1000 倍,這個(gè)硬件條件很難滿足。如果想要 CLIP 在各個(gè)數(shù)據(jù)集上都達(dá)到 SOTA 的效果,必須要有新的方法在計(jì)算和數(shù)據(jù)的效率上有進(jìn)一步的提高。

      ??(2) zero-shot CLIP 在某些數(shù)據(jù)集上表現(xiàn)也并不好,在一些細(xì)分類(lèi)任務(wù)上,CLIP 的性能低于 ResNet50。同時(shí) CLIP 也無(wú)法處理抽象的概念,也無(wú)法做一些更難的任務(wù)(如統(tǒng)計(jì)某個(gè)物體的個(gè)數(shù))。作者認(rèn)為還有很多很多任務(wù),CLIP 的 zero-shot 表現(xiàn)接近于瞎猜。

      ??(3) CLIP 雖然泛化能力強(qiáng),在許多自然圖像上還是很穩(wěn)健的,但是如果在做推理時(shí),這個(gè)數(shù)據(jù)與訓(xùn)練的數(shù)據(jù)差別非常大,即 out-of-distribution,那么 CLIP 的泛化能力也很差。比如,CLIP 在 MNIST 的手寫(xiě)數(shù)字上只達(dá)到88%的準(zhǔn)確率,一個(gè)簡(jiǎn)單的邏輯回歸的 baseline 都能超過(guò) zero-shot CLIP。 語(yǔ)義檢索和近重復(fù)最近鄰檢索都驗(yàn)證了在我們的預(yù)訓(xùn)練數(shù)據(jù)集中幾乎沒(méi)有與MNIST數(shù)字相似的圖像。 這表明CLIP在解決深度學(xué)習(xí)模型的脆弱泛化這一潛在問(wèn)題上做得很少。 相反,CLIP 試圖回避這個(gè)問(wèn)題,并希望通過(guò)在如此龐大和多樣的數(shù)據(jù)集上進(jìn)行訓(xùn)練,使所有數(shù)據(jù)都能有效地分布在分布中。

      ??(4) 雖然 CLIP 可以做 zero-shot 的分類(lèi)任務(wù),但它還是在你給定的這些類(lèi)別中去做選擇。這是一個(gè)很大的限制,與一個(gè)真正靈活的方法,如 image captioning,直接生成圖像的標(biāo)題,這樣的話一切都是模型在處理。 不幸的是,作者發(fā)現(xiàn) image captioning 的 baseline 的計(jì)算效率比 CLIP 低得多。一個(gè)值得嘗試的簡(jiǎn)單想法是將對(duì)比目標(biāo)函數(shù)和生成目標(biāo)函數(shù)聯(lián)合訓(xùn)練,希望將 CLIP 的高效性和 caption 模型的靈活性結(jié)合起來(lái)。

      ??(5) CLIP 對(duì)數(shù)據(jù)的利用還不是很高效,如果能夠減少數(shù)據(jù)用量是極好的。將CLIP與自監(jiān)督(Data-Efficient Image Recognition with Contrastive Predictive Coding;Big Self-Supervised Models are Strong Semi-Supervised Learners)和自訓(xùn)練(Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Network;Self-training with Noisy Student improves ImageNet classification)方法相結(jié)合是一個(gè)有希望的方向,因?yàn)樗鼈冏C明了比標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)更能提高數(shù)據(jù)效率。

      ??(6) 在研發(fā) CLIP 的過(guò)程中為了做公平的比較,并得到一些回饋,往往是在整個(gè)測(cè)試的數(shù)據(jù)集上做測(cè)試,嘗試了很多變體,調(diào)整了很多超參,才定下了這套網(wǎng)絡(luò)結(jié)構(gòu)和超參數(shù)。而在研發(fā)中,每次都是用 ImageNet 做指導(dǎo),這已經(jīng)無(wú)形之中帶入了偏見(jiàn),且不是真正的 zero-shot 的情況,此外也是不斷用那 27 個(gè)數(shù)據(jù)集做測(cè)試。創(chuàng)建一個(gè)新的任務(wù)基準(zhǔn),明確用于評(píng)估廣泛的 zero-shot 遷移能力,而不是重復(fù)使用現(xiàn)有的有監(jiān)督的數(shù)據(jù)集,將有助于解決這些問(wèn)題。

      ??(7) 因?yàn)閿?shù)據(jù)集都是從網(wǎng)上爬的,這些圖片-文本對(duì)兒基本是沒(méi)有經(jīng)過(guò)清洗的,所以最后訓(xùn)練出的 CLIP 就很可能帶有社會(huì)上的偏見(jiàn),比如性別、膚色、宗教等等。

      ??(8) 雖然我們一直強(qiáng)調(diào),通過(guò)自然語(yǔ)言引導(dǎo)圖像分類(lèi)器是一種靈活和通用的接口,但它有自己的局限性。 許多復(fù)雜的任務(wù)和視覺(jué)概念可能很難僅僅通過(guò)文本來(lái)指導(dǎo),即使用語(yǔ)言也無(wú)法描述。不可否認(rèn),實(shí)際的訓(xùn)練示例是有用的,但 CLIP 并沒(méi)有直接優(yōu)化 few-shot 的性能。 在作者的工作中,我們回到在CLIP特征上擬合線性分類(lèi)器。 當(dāng)從 zero-shot 轉(zhuǎn)換到設(shè)置 few-shot 時(shí),當(dāng) one-shot、two-shot、four-shot 時(shí)反而不如 zero-shot,不提供訓(xùn)練樣本時(shí)反而比提供少量訓(xùn)練樣本時(shí)查了,這與人類(lèi)的表現(xiàn)明顯不同,人類(lèi)的表現(xiàn)顯示了從 zero-shot 到 one-shot 大幅增加。今后需要開(kāi)展工作,讓 CLIP 既在 zero-shot 表現(xiàn)很好,也能在 few-shot 表現(xiàn)很好。

      7 結(jié)論

      ??作者的研究動(dòng)機(jī)就是在 NLP 領(lǐng)域利用大規(guī)模數(shù)據(jù)去預(yù)訓(xùn)練模型,而且用這種跟下游任務(wù)無(wú)關(guān)的訓(xùn)練方式,NLP 那邊取得了非常革命性的成功,比如 GPT-3。作者希望把 NLP 中的這種成功應(yīng)用到其他領(lǐng)域,如視覺(jué)領(lǐng)域。作者發(fā)現(xiàn)在視覺(jué)中用了這一套思路之后確實(shí)效果也不錯(cuò),并討論了這一研究路線的社會(huì)影響力。在預(yù)訓(xùn)練時(shí) CLIP 使用了對(duì)比學(xué)習(xí),利用文本的提示去做 zero-shot 遷移學(xué)習(xí)。在大規(guī)模數(shù)據(jù)集和大模型的雙向加持下,CLIP 的性能可以與特定任務(wù)的有監(jiān)督訓(xùn)練出來(lái)的模型競(jìng)爭(zhēng),同時(shí)也有很大的改進(jìn)空間。

      本文鏈接地址:http://esstyw.cn/zhishi/299981.html 轉(zhuǎn)載請(qǐng)保留說(shuō)明!

      上一篇:SM1、SM2、SM3、SM4、同態(tài)加密、密態(tài)計(jì)算、隱私計(jì)算和安全多方計(jì)算的概念

      下一篇:Vue在HTML中如何使用(vue怎么嵌入html)

    2. 抖店退貨地址在哪里設(shè)置(抖店退貨地址在哪里查看)

      抖店退貨地址在哪里設(shè)置(抖店退貨地址在哪里查看)

    3. gb和mb的流量那個(gè)多(流量中g(shù)b和mb哪個(gè)大)

      gb和mb的流量那個(gè)多(流量中g(shù)b和mb哪個(gè)大)

    4. 微博手機(jī)號(hào)碼已經(jīng)不用了怎么辦(微博手機(jī)號(hào)碼已經(jīng)不用了密碼也忘了)

      微博手機(jī)號(hào)碼已經(jīng)不用了怎么辦(微博手機(jī)號(hào)碼已經(jīng)不用了密碼也忘了)

    5. qq怎么申請(qǐng)(qq怎么申請(qǐng)情侶關(guān)系)

      qq怎么申請(qǐng)(qq怎么申請(qǐng)情侶關(guān)系)

    6. se2是雙卡雙待嗎(iphonese2是雙卡雙待嗎)

      se2是雙卡雙待嗎(iphonese2是雙卡雙待嗎)

    7. 小紅書(shū)的收藏在哪里(小紅書(shū)收藏在哪里關(guān)閉)

      小紅書(shū)的收藏在哪里(小紅書(shū)收藏在哪里關(guān)閉)

    8. 紅包退還對(duì)方知道嗎(紅包退還給我對(duì)方能不能看到)

      紅包退還對(duì)方知道嗎(紅包退還給我對(duì)方能不能看到)

    9. 淘寶評(píng)價(jià)追評(píng)能刪除嗎(淘寶評(píng)價(jià)追評(píng)之后能再追評(píng)嗎)

      淘寶評(píng)價(jià)追評(píng)能刪除嗎(淘寶評(píng)價(jià)追評(píng)之后能再追評(píng)嗎)

    10. 手機(jī)被摔后無(wú)法開(kāi)機(jī)(手機(jī)被摔后無(wú)法開(kāi)機(jī)怎么辦)

      手機(jī)被摔后無(wú)法開(kāi)機(jī)(手機(jī)被摔后無(wú)法開(kāi)機(jī)怎么辦)

    11. airpods充電盒充不進(jìn)電(airpods充電盒充電需要打開(kāi)蓋子嗎)

      airpods充電盒充不進(jìn)電(airpods充電盒充電需要打開(kāi)蓋子嗎)

    12. etc怎么開(kāi)機(jī)和關(guān)機(jī)(etc設(shè)備怎樣開(kāi)機(jī))

      etc怎么開(kāi)機(jī)和關(guān)機(jī)(etc設(shè)備怎樣開(kāi)機(jī))

    13. oppoa11x可以閃充嗎(oppoa11x支持閃充嗎?可以用閃充的插頭嗎?)

      oppoa11x可以閃充嗎(oppoa11x支持閃充嗎?可以用閃充的插頭嗎?)

    14. 蘋(píng)果11背面有字母嗎(蘋(píng)果11背面有字母什么意思)

      蘋(píng)果11背面有字母嗎(蘋(píng)果11背面有字母什么意思)

    15. 紅米k20有呼吸燈嗎(紅米k20pro呼吸燈)

      紅米k20有呼吸燈嗎(紅米k20pro呼吸燈)

    16. 小米6支持電信卡嗎(小米支持電信volte的機(jī)型)

      小米6支持電信卡嗎(小米支持電信volte的機(jī)型)

    17. 華為榮耀9x有沒(méi)有分屏功能(華為榮耀9x有沒(méi)有紅外線遙控功能)

      華為榮耀9x有沒(méi)有分屏功能(華為榮耀9x有沒(méi)有紅外線遙控功能)

    18. 4g加是什么意思(4g加是什么意思啊)

      4g加是什么意思(4g加是什么意思啊)

    19. 電腦微信的聊天記錄是哪個(gè)文件夾(電腦微信的聊天記錄怎么徹底刪除)

      電腦微信的聊天記錄是哪個(gè)文件夾(電腦微信的聊天記錄怎么徹底刪除)

    20. 微信如何分享聊天記錄(微信如何分享聊天語(yǔ)音)

      微信如何分享聊天記錄(微信如何分享聊天語(yǔ)音)

    21. 借充電寶可以異地還么(借充電寶能不能跨省)

      借充電寶可以異地還么(借充電寶能不能跨省)

    22. WPS JS宏入門(mén)案例集錦(excel js宏)

      WPS JS宏入門(mén)案例集錦(excel js宏)

    23. 無(wú)需本地部署 在線使用Stable Diffusion Webui 使用共享模型(無(wú)需本地部署的軟件)

      無(wú)需本地部署 在線使用Stable Diffusion Webui 使用共享模型(無(wú)需本地部署的軟件)

    24. 微信小程序?qū)崿F(xiàn)頂部固定底部分頁(yè)滾動(dòng)效果(微信小程序?qū)崿F(xiàn)支付功能)

      微信小程序?qū)崿F(xiàn)頂部固定底部分頁(yè)滾動(dòng)效果(微信小程序?qū)崿F(xiàn)支付功能)

    25. 對(duì)外支付人民幣存在殘缺污損的問(wèn)題
    26. 印花稅資本金項(xiàng)目如何繳納
    27. 交車(chē)險(xiǎn)代收的車(chē)船費(fèi)怎么做的科目呀?
    28. 往來(lái)票據(jù)如何開(kāi)具
    29. 承兌匯票能直接兌換嗎
    30. 個(gè)體戶免費(fèi)發(fā)票怎么領(lǐng)
    31. 安保公司差額征稅開(kāi)具發(fā)票
    32. 利稅總額是應(yīng)交還是已交
    33. 隨意變更會(huì)計(jì)處理方法違背了
    34. 專(zhuān)票丟失登報(bào)后怎么處理
    35. 開(kāi)票確定收入分錄
    36. 勞務(wù)派遣能不能預(yù)支工資
    37. 改建的固定資產(chǎn)
    38. 殘疾人保障金繳納比例是月1.5%
    39. 購(gòu)進(jìn)原材料沒(méi)有發(fā)票怎么做分錄
    40. 報(bào)稅沒(méi)有報(bào)怎么辦
    41. 研發(fā)支出輔助賬2021版
    42. 車(chē)間改造用的材料有哪些
    43. 非高新企業(yè)研發(fā)費(fèi)用加計(jì)扣除的條件
    44. 地產(chǎn)商自持是什么意思
    45. 個(gè)體工商戶做賬可以做工資嗎
    46. 供熱企業(yè)所使用的燃?xì)?/a>
    47. 騰訊手游助手qq版本過(guò)低
    48. win7系統(tǒng)如何查看主板型號(hào)
    49. 房產(chǎn)的評(píng)估增值屬于土地增值稅征稅范圍對(duì)嗎
    50. 進(jìn)項(xiàng)稅轉(zhuǎn)出怎么填報(bào)表
    51. 工商年報(bào)的納稅總額怎么查詢
    52. 進(jìn)銷(xiāo)存功能
    53. Win10新版21364發(fā)布: 可直接運(yùn)行Linux圖形程序
    54. 淺談linux
    55. 進(jìn)貨返利怎么入賬
    56. 處置工程物資取得凈收益
    57. html怎么引入圖片
    58. php正則表達(dá)式驗(yàn)證用戶名
    59. 直接關(guān)聯(lián)和間接關(guān)聯(lián)
    60. 庫(kù)存商品用于研發(fā)要進(jìn)項(xiàng)稅額轉(zhuǎn)出嗎
    61. 公司車(chē)輛出售要交多少稅
    62. 工程完工補(bǔ)付工程款會(huì)計(jì)分錄
    63. 增量留底退稅怎么比增值稅高
    64. 開(kāi)票軟件里稅收分類(lèi)編碼在哪更新
    65. 報(bào)廢車(chē)殘值需要多少錢(qián)
    66. 小規(guī)模納稅人企業(yè)所得稅優(yōu)惠政策最新2023
    67. 飯店開(kāi)業(yè)多久可以正常
    68. 房地產(chǎn)企業(yè)按簡(jiǎn)易計(jì)稅
    69. 支付一年房租費(fèi)怎么做賬
    70. 單位注銷(xiāo)合并勞動(dòng)合同有效嗎
    71. 其他權(quán)益工具投資公允價(jià)值變動(dòng)計(jì)入什么科目
    72. 自產(chǎn)的產(chǎn)品用于生產(chǎn)繳納增值稅
    73. 什么情況下需要割包皮
    74. 個(gè)人轉(zhuǎn)到公司賬上的錢(qián)能開(kāi)發(fā)票嗎
    75. 給股東分利潤(rùn)怎么做賬
    76. 機(jī)票的電子發(fā)票可以報(bào)銷(xiāo)嗎
    77. 企業(yè)所得稅收入是含稅還是不含稅
    78. 資本金賬戶資金允許
    79. myeclipse連接mysql數(shù)據(jù)庫(kù)代碼
    80. Windows7 64位環(huán)境下Python-igraph環(huán)境配置的方法
    81. Win7旗艦版系統(tǒng)文件名稱
    82. xp系統(tǒng)怎么設(shè)置系統(tǒng)啟動(dòng)項(xiàng)
    83. 服務(wù)器維護(hù)和計(jì)劃的區(qū)別
    84. win8系統(tǒng)怎么設(shè)置
    85. 電腦重做系統(tǒng)后打印機(jī)不能打印
    86. 微軟 hololive
    87. 怎么優(yōu)化win10系統(tǒng)
    88. perl正則表達(dá)式匹配 \w \s
    89. unity2020商店
    90. bat文件命令大全
    91. bash特殊符號(hào)
    92. javascript 變量
    93. bootstrap教材
    94. js window.screen
    95. 如何開(kāi)具稅收繳納證明
    96. 房屋附屬設(shè)備和配套設(shè)施計(jì)征房產(chǎn)稅
    97. 什么是增值稅免抵稅額
    98. 出口退稅是否繳納所得稅
    99. 燈具維修發(fā)票明細(xì)
    100. 個(gè)體戶定額怎么查詢
    101. 公司賬戶注銷(xiāo)了,是不是網(wǎng)銀也注銷(xiāo)了
    102. 個(gè)人所得稅完稅證明圖片
    103. 出口退稅函調(diào)管理辦法
    104. 保險(xiǎn)機(jī)構(gòu)如何代收車(chē)船稅
    105. 免責(zé)聲明:網(wǎng)站部分圖片文字素材來(lái)源于網(wǎng)絡(luò),如有侵權(quán),請(qǐng)及時(shí)告知,我們會(huì)第一時(shí)間刪除,謝謝! 郵箱:opceo@qq.com

      鄂ICP備2023003026號(hào)

      網(wǎng)站地圖: 企業(yè)信息 工商信息 財(cái)稅知識(shí) 網(wǎng)絡(luò)常識(shí) 編程技術(shù)

      友情鏈接: 武漢網(wǎng)站建設(shè)