乡下人产国偷v产偷v自拍,国产午夜片在线观看,婷婷成人亚洲综合国产麻豆,久久综合给合久久狠狠狠9

  • <output id="e9wm2"></output>
    <s id="e9wm2"><nobr id="e9wm2"><ins id="e9wm2"></ins></nobr></s>

    • 分享

      語(yǔ)言模型的簡(jiǎn)史

       江海博覽 2024-02-15 發(fā)布于浙江
      聞數(shù)起舞
      聞數(shù)起舞
      2023-05-17 07:27思博卡技術(shù)咨詢(北京)有限公司架構(gòu)師 優(yōu)質(zhì)科技領(lǐng)域創(chuàng)作者

      實(shí)現(xiàn)GPT之路的突破--為非專業(yè)人士解釋

      Dorian Drost

      今天,像GPT這樣的大型語(yǔ)言模型在媒體上得到了壓倒性的關(guān)注,這給人的印象是我們都處在一場(chǎng)正在進(jìn)行的革命之中。然而,即使是一場(chǎng)革命也是建立在前人的成功之上的,而GPT是幾十年研究的成果。

      在這篇文章中,我想概述一下語(yǔ)言模型領(lǐng)域的一些主要研究步驟,這些研究最終導(dǎo)致了我們今天的大型語(yǔ)言模型。我將簡(jiǎn)要描述什么是一般的語(yǔ)言模型,然后討論一些在不同時(shí)期引領(lǐng)該領(lǐng)域的核心技術(shù),這些技術(shù)通過(guò)克服其祖先的障礙和困難,為今天的技術(shù)鋪平道路,其中(Chat-)GPT可能是最著名的代表。

      什么是語(yǔ)言模型?

      語(yǔ)言模型的簡(jiǎn)史

      將文字變成語(yǔ)言模型的必要條件是什么?照片由 Glen Carrie于 Unsplash

      語(yǔ)言模型是一個(gè)機(jī)器學(xué)習(xí)模型,它可以預(yù)測(cè)給定的一連串單詞的下一個(gè)單詞。就這么簡(jiǎn)單!

      主要的想法是,這樣的模型必須有一些人類語(yǔ)言的代表。在某種程度上,它對(duì)我們的語(yǔ)言所依賴的規(guī)則進(jìn)行建模。在看過(guò)數(shù)以百萬(wàn)計(jì)的文本之后,該模型將代表這樣一個(gè)事實(shí),即動(dòng)詞、名詞和代詞等事物存在于一種語(yǔ)言中,它們?cè)谝粋€(gè)句子中具有不同的功能。它也可能得到一些來(lái)自單詞含義的模式,例如,'巧克力 '經(jīng)常出現(xiàn)在 '甜'、'糖 '和 '脂肪 '等詞的上下文中,但很少與 '割草機(jī) '或 '線性回歸 '等詞放在一起。

      如前所述,它是通過(guò)學(xué)習(xí)預(yù)測(cè)給定的單詞序列中的下一個(gè)單詞來(lái)實(shí)現(xiàn)這一表述的。這是通過(guò)分析大量的文本來(lái)推斷,在給定的背景下,下一個(gè)詞可能是哪個(gè)。讓我們來(lái)看看這是如何實(shí)現(xiàn)的。

      起步者

      語(yǔ)言模型的簡(jiǎn)史

      在考慮更復(fù)雜的技術(shù)之前,我們必須先簡(jiǎn)單地開(kāi)始。照片作者 喬恩-卡塔赫納在 Unsplash

      讓我們從第一個(gè)直觀的想法開(kāi)始:給定大量的文本,我們可以計(jì)算每個(gè)詞在特定語(yǔ)境下的頻率。上下文只是出現(xiàn)在前面的詞。也就是說(shuō),例如,我們計(jì)算 '喜歡 '這個(gè)詞在 '我 '這個(gè)詞之后出現(xiàn)的頻率,我們計(jì)算,它在 '不要 '這個(gè)詞之后出現(xiàn)的頻率,以此類推,所有曾經(jīng)出現(xiàn)在 '喜歡 '這個(gè)詞之前的詞。如果我們用這個(gè)數(shù)字除以前面那個(gè)詞的頻率,我們很容易得出概率P('喜歡'|'我'),讀作 '喜歡 '這個(gè)詞在 '我 '這個(gè)詞下出現(xiàn)的概率:

      P('喜歡'|'我') = count('我喜歡') / count('我')

      P('喜歡'|'不喜歡') = count('不喜歡') / count('不喜歡')

      我們可以對(duì)文本中發(fā)現(xiàn)的每一個(gè)詞對(duì)都這樣做。然而,這有一個(gè)明顯的缺點(diǎn):用來(lái)確定概率的上下文只有一個(gè)詞。這意味著,如果我們想預(yù)測(cè) '不 '字之后的內(nèi)容,我們的模型不知道 '不 '字之前的內(nèi)容,因此無(wú)法區(qū)分 '他們不'、'我不 '或 '我們不'。

      為了解決這個(gè)問(wèn)題,我們可以擴(kuò)展上下文。因此,我們不是計(jì)算P('喜歡'|'不喜歡'),而是計(jì)算P('喜歡'|'我不喜歡')和P('喜歡'|'他們不喜歡')以及P('喜歡'|'我們不喜歡'),等等。我們甚至可以將上下文擴(kuò)展到更多的詞,我們稱之為n-gram模型,其中n是上下文要考慮的詞的數(shù)量。一個(gè)n-gram只是一個(gè)n個(gè)單詞的序列,所以 '我喜歡巧克力',例如,是一個(gè)3-gram。

      n越大,模型在預(yù)測(cè)下一個(gè)詞時(shí)能考慮到的上下文就越多。然而,n越大,我們必須計(jì)算的不同概率就越多,因?yàn)椴煌?-grams比2-grams多得多,例如。不同的n-grams的數(shù)量呈指數(shù)級(jí)增長(zhǎng),很容易達(dá)到一個(gè)點(diǎn),在內(nèi)存或計(jì)算時(shí)間上處理它們變得不可行。因此,n-grams只允許我們使用非常有限的上下文,這對(duì)許多任務(wù)來(lái)說(shuō)是不夠的。

      遞歸神經(jīng)網(wǎng)絡(luò)

      語(yǔ)言模型的簡(jiǎn)史

      循環(huán)神經(jīng)網(wǎng)絡(luò)正在重復(fù)執(zhí)行相同的步驟。照片作者 ?nder rtel?在 Unsplash

      循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)引入了一種方法來(lái)解決n-gram模型在更大語(yǔ)境下的問(wèn)題。在RNN中,一個(gè)輸入序列被一個(gè)接一個(gè)地處理,產(chǎn)生一個(gè)所謂的隱藏表示。其主要思想是,這個(gè)隱藏的表征包括迄今為止序列的所有相關(guān)信息,并可在下一步中用于預(yù)測(cè)下一個(gè)詞。

      讓我們看一個(gè)例子:假設(shè)我們有這樣一個(gè)句子

      老鼠吃了奶酪

      RNN現(xiàn)在處理一個(gè)又一個(gè)的詞(先是 'mouse',然后是 'eat',......),創(chuàng)建隱藏表示,并預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞。現(xiàn)在,如果我們到達(dá) 'the '這個(gè)詞,模型的輸入將包括當(dāng)前的詞('the')和一個(gè)隱藏表示向量,其中包括句子 'the mouse eats '的相關(guān)信息。這些信息被用來(lái)預(yù)測(cè)下一個(gè)詞(例如 'cheese')。請(qǐng)注意,該模型并沒(méi)有看到 'the'、'mouse '和 'eats '這些詞;這些都被編碼在隱藏表示中。

      這是否比看到最后的n個(gè)詞要好,就像n-gram模型那樣?嗯,這取決于。隱藏表征的主要優(yōu)點(diǎn)是,它可以包括不同大小的序列的信息,而不會(huì)呈指數(shù)級(jí)增長(zhǎng)。在一個(gè)3-gram模型中,該模型正好看到3個(gè)詞。如果這不足以準(zhǔn)確預(yù)測(cè)下一個(gè)詞,它也無(wú)能為力;它沒(méi)有更多信息。另一方面,RNNs中使用的隱藏表示包括整個(gè)序列。然而,它必須以某種方式將所有的信息裝入這個(gè)固定大小的向量中,所以信息不是以逐字的方式存儲(chǔ)。如果序列變得更長(zhǎng),這可能成為所有相關(guān)信息必須通過(guò)的瓶頸。

      這樣想也許對(duì)你有幫助:n-gram模型只看到一個(gè)有限的上下文,但這個(gè)上下文它看得很清楚(單詞的原貌),而RNN有一個(gè)更大、更靈活的上下文,但它們只看到一個(gè)模糊的圖像(隱藏的表示)。

      不幸的是,RNN還有一個(gè)缺點(diǎn):由于它們是一個(gè)字一個(gè)字地處理序列,所以它們不能被平行地訓(xùn)練。要處理位置t的詞,你需要步驟t-1的隱藏表示,為此你需要步驟t-2的隱藏表示,以此類推。因此,在訓(xùn)練和推理過(guò)程中,計(jì)算必須一步接一步地進(jìn)行。如果你能并行地計(jì)算每個(gè)詞的所需信息,那就更好了,不是嗎?

      注意拯救:Transformer

      語(yǔ)言模型的簡(jiǎn)史

      注意力就是要擊中正確的位置。照片作者 阿菲夫-拉姆達(dá)蘇馬在 Unsplash

      Transformer是解決RNNs缺點(diǎn)的模型家族。它們避免了隱藏表征的瓶頸問(wèn)題,并且允許并行訓(xùn)練。它們是如何做到這一點(diǎn)的呢?

      Transformer模型的關(guān)鍵部分是注意力機(jī)制。請(qǐng)記住,在RNN中,有一個(gè)隱藏的表示,包括迄今為止輸入序列的所有信息。為了避免對(duì)整個(gè)序列有一個(gè)單一的表征所帶來(lái)的瓶頸,注意力機(jī)制在每一步都構(gòu)建一個(gè)新的隱藏表征,它可以包括來(lái)自以前任何一個(gè)詞的信息。這允許模型決定序列的哪些部分與預(yù)測(cè)下一個(gè)詞有關(guān),因此它可以通過(guò)賦予它們更高的相關(guān)性來(lái)計(jì)算下一個(gè)詞的概率,從而將注意力集中在這些部分。假設(shè)我們有這樣一個(gè)句子

      有一天,當(dāng)我看到桃樂(lè)絲和稻草人時(shí),我走到她身邊,說(shuō):'嗨

      而我們想預(yù)測(cè)下一個(gè)詞。注意力機(jī)制允許模型將注意力集中在與續(xù)篇有關(guān)的詞上,而忽略那些不相關(guān)的部分。在這個(gè)例子中,代詞 '她 '必須指的是 '多蘿西'(而不是 '稻草人'),因此模型必須決定關(guān)注 '多蘿西 '而忽略 '稻草人 '來(lái)預(yù)測(cè)下一個(gè)詞。對(duì)于這個(gè)句子,它更有可能繼續(xù)說(shuō) '嗨,桃樂(lè)西 '而不是 '嗨,稻草人 '或 '嗨,一起'。

      一個(gè)RNN只會(huì)有一個(gè)單一的隱藏表征向量,它可能包括也可能不包括決定代詞 '她 '指誰(shuí)所需的信息。與此相反,在注意力機(jī)制下,一個(gè)新的隱藏表征被創(chuàng)建,它包括來(lái)自 '桃樂(lè)絲 '這個(gè)詞的許多信息,而來(lái)自其他目前不相關(guān)的詞的信息較少。對(duì)于下一個(gè)詞的預(yù)測(cè),將再次計(jì)算一個(gè)新的隱藏表征,它可能看起來(lái)非常不同,因?yàn)楝F(xiàn)在模型可能想把更多的注意力放在其他詞上,例如 '稻草人'。

      注意力機(jī)制還有一個(gè)優(yōu)點(diǎn),即它允許訓(xùn)練的平行化。如前所述,在RNN中,你必須一個(gè)接一個(gè)地計(jì)算每個(gè)詞的隱藏表示。在轉(zhuǎn)化器中,你在每一步都計(jì)算一個(gè)隱藏表征,這只需要單個(gè)詞的表征。特別是,為了計(jì)算第t步的隱藏表示,你不需要第t-1步的隱藏表示。因此,你可以平行地計(jì)算這兩者。

      在過(guò)去的幾年里,模型規(guī)模的增加,使模型的性能一天比一天好,這只是因?yàn)椴⑿杏?xùn)練這些模型在技術(shù)上變得可行了。有了遞歸神經(jīng)網(wǎng)絡(luò),我們就無(wú)法訓(xùn)練具有數(shù)千億個(gè)參數(shù)的模型,因此也就無(wú)法使用這些模型與自然語(yǔ)言互動(dòng)的能力。變形金剛的注意力機(jī)制可以被看作是最后一個(gè)組件,它與大量的訓(xùn)練數(shù)據(jù)和體面的計(jì)算資源一起,是開(kāi)發(fā)像GPT及其兄弟姐妹這樣的模型所需要的,并開(kāi)始了人工智能和語(yǔ)言處理的持續(xù)革命。

      摘要

      那么,我們?cè)谶@篇文章中看到了什么?我的目標(biāo)是向你概述一些主要步驟,這些步驟是達(dá)成我們今天擁有的強(qiáng)大語(yǔ)言模型所必需的。作為總結(jié),以下是按順序排列的重要步驟:

      • 語(yǔ)言建模的關(guān)鍵環(huán)節(jié)是預(yù)測(cè)給定的一連串文字的下一個(gè)詞。
      • n-gram模型只能代表有限的上下文。
      • 循環(huán)神經(jīng)網(wǎng)絡(luò)有一個(gè)更靈活的背景,但其隱藏的表征可能成為一個(gè)瓶頸,而且它們不能被并行訓(xùn)練。
      • 變形器通過(guò)引入注意力機(jī)制來(lái)避免瓶頸,該機(jī)制允許詳細(xì)地關(guān)注上下文的特定部分。最終,它們可以被并行訓(xùn)練,這是訓(xùn)練大型語(yǔ)言模型的一個(gè)要求。

      當(dāng)然,為了達(dá)到我們今天的模型,還需要很多技術(shù)。這個(gè)概述只是強(qiáng)調(diào)了一些非常重要的關(guān)鍵方面。您認(rèn)為,在建立大型語(yǔ)言模型的過(guò)程中,還有哪些相關(guān)步驟?

      進(jìn)一步閱讀

      關(guān)于更多的背景和技術(shù)細(xì)節(jié),你可以看一下可以被稱為語(yǔ)言建模圣經(jīng)的東西:

      • 語(yǔ)音和語(yǔ)言處理,Dan Jurafsky和James H. Martin,第三版草案。 https://web./~jurafsky/slp3/

      下面的論文介紹了在邁向大型語(yǔ)言模型的過(guò)程中的一些里程碑。

      遞歸神經(jīng)網(wǎng)絡(luò):

      • Elman, J. L. (1990).在時(shí)間中尋找結(jié)構(gòu)。認(rèn)知科學(xué),14(2),179-211。
      • Hochreiter, S., & Schmidhuber, J. (1997).長(zhǎng)短期記憶。神經(jīng)計(jì)算9(8),1735-1780。

      Transformer:

      • Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017).注意力是你所需要的一切。神經(jīng)信息處理系統(tǒng)的進(jìn)展30。

        本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買(mǎi)等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
        轉(zhuǎn)藏 分享 獻(xiàn)花(0

        0條評(píng)論

        發(fā)表

        請(qǐng)遵守用戶 評(píng)論公約

        類似文章 更多