看到這個標題,你可能會覺得是噱頭。誰不知道 chatgpt 模型有 1750 億以上的參數,別說是在筆記本電腦上跑,就是使用高性能 gpu 的台式機,也無法帶得動啊。老老實實調用 api 不好嗎?其實,大語言模型)有非常寬泛的參數量範圍。咱們今天介紹的這個模型 gpt4a 只有 70 億參數,在 里面現在算是妥妥的小巧玲瓏。不過看這個名字你也能發現,它確實是野心勃勃,照著 c 基于 eta 的 aa 模型訓練。你可能立即覺得不對,你這跟 gpt 有啥關系?為什麼要無端蹭熱度?且慢,gpt4a 確實和 c 的訓練過程。??gpt4a 其實就是非常典型的蒸餾disti)模型 —— 想要模型盡量靠近大模型的性能,又要參數足夠少。听起來很貪心,是吧?據開發者自己說,gpt4a 雖小,卻在某些任務類型上可以和 chatgpt 相媲美。但是,咱們不能只听開發者的一面之辭。還是試試看比較好,你說是吧?深度神經網絡由多個層組成。每一層包含處理輸入數據並通過非線性激活函數sigoid 或 reu)傳遞給其他層的神經元。每一層的輸出會傳遞給另一層,在傳遞給下一層進行進一步處理之前,這一層會對這個中間表示進行某種操作。 這個架構可以分為兩個主要部分︰輸入層和輸出層。 輸入層 這表示一組輸入,這些輸入被送入人工神經網絡ann)作為訓練數據或測試數據,然後由深度學習算法使用,以根據歷史信息例如過去的交易等)預測未來事件 結果,這一過程使用輸入層及其相關權重。 輸出層 這表示一組輸出,這些輸出在經過人工神經網絡內部的各個層例如卷積神經網絡、循環神經網絡或長短時記憶網絡)處理後被送回到 ann 中,然後由深度學習算法使用,以根據歷史信息例如過去的交易等)預測未來事件 結果,這一過程使用輸出層及其相關權重。 深度學習模型的架構可能會因各種因素而有所不同,例如數據類型、特征數量、目標變量或正在解決的分類問題。transforer 是一類深度學習架構,在自然語言處理np)和其他領域中已變得非常流行,這歸功于它們強大的性能和可擴展性。transforer 首次在 vasani 等人于 2017 年發表的論文 "attention is a need" 中被介紹。transforer 基于自注意力機制,這使它們能夠捕獲長距離依賴關系並在序列中建模復雜的模式。自注意力機制︰transforer 的核心是自注意力機制,它允許模型衡量每個輸入標記與序列中每個其他標記的關系的重要性。這是通過使用三個可學習的向量實現的,分別稱為查詢向量q)、鍵向量k)和值向量v)。自注意力機制計算每對標記之間的注意力分數,然後用于生成值向量的加權和。多頭注意力︰transforer 使用多頭注意力來捕捉輸入序列的不同方面。多頭注意力層中的每個 "頭" 都獨立執行自注意力,並生成自己的輸出。這些輸出然後被連接並線性轉換以創建多頭注意力層的最終輸出。看到這里,你可能已經怒了 —— 有這麼比的嗎?!你拿一個如此精致的小模型 gpt4a70b)跟 gpt4 這樣的大怪物去比。gpt4 勝之不武,我為 gpt4a 鳴不平!且慢惱怒,我想表達的意思是這樣的︰如果一個模型真的能達到蒸餾濃縮的作用,那麼顯然體積的顯著減小是重大優勢,畢竟這意味著訓練和應用成本降低,速度顯著提升。但如果模型縮小以後在解決問答、解釋和編程能力上和大模型相比差距顯著,那麼我們就不能武斷地說小模型「性價比」更高了。有研究證實過在「有人類調教的情況下」,60 億參數的小模型甚至可以在某些任務上面擊敗 1750 億參數的大模型 (ouyang et a. 2022)。只不過,這里的比較並不公平 —— 它指的是小模型有人工調教,而大模型缺乏調教的情況。c 能夠以少量的參數達到 chatgpt 這麼好的性能,即便它充分使用了 chatgpt 的輸入輸出數據。訓練大語言模型時,多大的語料會使得模型對外部世界真實認知產生質的飛躍可以在各項任務上都有好的表現)?目前的經驗是 300 億單詞的輸入量 (z. 2020)。但是大語料需要足夠高的模型復雜度來承載。模型相對輸入數據過于復雜固然不好過擬合,overfitting)。然而一個太小的模型在面對大數據的時候,也會力不從心欠擬合)。大和小是需要相對判斷的。目前的 gpt4a 在一眾巨無霸面前,無論如何也是個小模型。chatgpt 這樣的大語言模型讓人們驚詫的地方,在于它能夠有自己的「頓悟時刻」。這種「頓悟時刻」如何出現的?現在學術界還在研究中。但是有很多證據指向一些提示語例如「一步步來」step by step)能夠激活大語言模型的 chainofthought (思維鏈),從而有助于解鎖「頓悟」般的邏輯推理能力。不過研究者同樣證明了,這種「魔法」提示語有效的前提,是模型的參數量需要達到 1000 億的規模 (ei et a. 2023)。c 還遠得很。當然不是。如果你把 gpt4a 看成某種終極形態,那麼等待你的可能是從激動快速跌落到失望。但是比較一下初代 iphone 和 iphone 4s,你就能感受到短短幾年間,技術進步帶來的產品性能天差地別。更何況,現在的 ai 進展速度,可不像 ip 也有其用途。在我們的測試中,它在寫作上還是有能力的。gpt4a 不需要付費調用 token ,也不需要把數據傳遞到遠端進行處理。對有些使用目的例如保護公司機密數據)而言,gpt4a 這樣的模型出現,關乎的可不只是「好用」與「不好用」,而是「能用」和「不能用」的分水嶺。對于很多機構的事務性工作而言,復雜的邏輯推理能力其實只是錦上添花。若是能完美解決日常單項任務,收益也已經十分顯著。請你在試用之後,依然對gpt4a保持一份耐心。也許不久以後,我們每個人的電腦和手機上,都能運行一個隨時待命的優秀助理,幫助我們做許多從前想做,但是一想到要做就頭疼的任務
喜歡職場小聰明請大家收藏︰()職場小聰明書更新速度全網最快。