国产日韩欧美一区_无码精品人妻一区二区久久久_日本丰满妇人成熟免费中文字幕_bl肉yin荡受np各种play男男_久久综合亚洲色社区

您現(xiàn)在的位置:首頁  >  新聞資訊

英偉達發(fā)布新nGPT架構(gòu)撬動AI未來

2024/10/23 10:01:53 標簽:中國傳動網(wǎng)

10 月 22 日消息,科技媒體 dataconomy 昨日(10 月 21 日)發(fā)布博文,報道稱英偉達在訓練 AI 模型方面取得重大突破,發(fā)布了最新的 Normalized Transformer(nGPT)新架構(gòu),保持模型的穩(wěn)定性和準確性的前提下,可以將訓練 AI 時間縮短至 1/4 或者 1/20。

nGPT 架構(gòu)提升效率的秘訣在于“超球面學習”(Hyperspherical learning)這個概念。

傳統(tǒng)的變換器模型通常缺乏一致的幾何框架,而 nGPT 通過將嵌入、注意力矩陣和隱藏狀態(tài)等關鍵組件映射到超球面表面,確保模型各層在訓練過程中保持平衡。

這種幾何結(jié)構(gòu)有助于創(chuàng)造更穩(wěn)定高效的學習過程:

減少訓練步驟:nGPT 不再直接對模型權(quán)重應用權(quán)重衰減,而是依賴學習到的縮放參數(shù),優(yōu)化模型在訓練中的調(diào)整方式。

簡化過程:此方法消除了對 LayerNorm 或 RMSNorm 等歸一化技術(shù)的需求,使訓練過程更為簡單和快速。

英偉達團隊使用 OpenWebText 數(shù)據(jù)集進行測試,nGPT 在速度和效率上均優(yōu)于傳統(tǒng)的 GPT 模型。對于長達 4000 個 tokens 的文本輸入,nGPT 所需的訓練輪次遠少于傳統(tǒng)模型,顯著縮短了訓練時間。

nGPT 的一個關鍵優(yōu)勢是將歸一化(normalization)和表示學習(representation learning)結(jié)合成一個統(tǒng)一框架,這種設計簡化了模型架構(gòu),便于擴展和適應更復雜的混合系統(tǒng)。未來,nGPT 的方法可能被整合進其他類型的模型和架構(gòu),從而開發(fā)出更強大的 AI 系統(tǒng)。


供稿:電子技術(shù)應用

本文鏈接:http://www.onehpc.cn/content.aspx?url=rew&id=5088

成員中心

《伺服與運動控制》

《伺服與運動控制》

創(chuàng)刊于2005年,秉承面向市場、面向科技、面向應用、面向行業(yè),集實用性、信息性、...

《機器人與智能系統(tǒng)》

《機器人與智能系統(tǒng)》

是深圳市機器人協(xié)會、中國傳動網(wǎng)共同主辦的聚焦機器人、智能系統(tǒng)領域的高端產(chǎn)經(jīng)...

《直驅(qū)與傳動》

《直驅(qū)與傳動》

聚焦直驅(qū)產(chǎn)業(yè),整合資源,為直驅(qū)企業(yè)與用戶搭建橋梁。