通義千問作為阿里云自主研發的大語言模型,代表了阿里巴巴在人工智能領域的重要突破和技術實力123. 它能夠基于用戶的自然語言輸入,通過強大的自然語言理解和語義分析能力,在眾多領域和任務中為用戶提供高質量的服務和幫助,展現出了廣泛的應用前景和巨大的商業價值123.
發展歷程
- 2019 年起,阿里巴巴集團開始進行大模型研究1.
- 2023 年 4 月 7 日,阿里云宣布 “通義千問” 開始邀請測試,此次測試主要面向企業用戶1.
- 2023 年 4 月 11 日,通義千問在阿里云峰會上正式發布,同時阿里巴巴宣布所有產品未來將接入該大模型進行全面改造1.
- 2023 年 8 月 3 日,通義千問旗下 70 億參數通用模型 Qwen-7b 和對話模型 Qwen-7b-chat 上架魔搭開源,支持用戶在消費級顯卡上部署和運行模型1.
- 2023 年 9 月 13 日,通義千問大模型首批通過備案,正式向公眾開放1.
- 2023 年 10 月 31 日,阿里云在 2023 云棲大會上正式升級發布通義千問 2.0,模型參數達到千億級別,并推出基于通義大模型訓練的 8 大行業模型1.
- 2024 年 6 月 7 日,阿里通義千問 Qwen2 大模型發布,并在 Hugging Face 和 ModelScope 上同步開源,其涵蓋 5 個尺寸的預訓練和指令微調模型,上下文長度支持進一步擴展1.
- 2024 年 4 月 28 日,通義千問開源 1100 億參數模型 Qwen1.5-110b,成為全系列首個千億級參數開源模型,并在多項基準測評中取得優異成績.
模型架構與技術特點
- 基于 Transformer 框架:通義千問模型采用了 Transformer 框架,并在其基礎上進行了多項優化和改進。例如,選擇了不受限的嵌入方法,以獲得更好的性能;采用 RoPE(Rotary Positional Embedding)為位置編碼,并使用 FP32 精確度的逆頻率矩陣,提高了模型的性能表現和精確度1.
- 分組查詢注意力方法(GQA):在 Qwen1.5-110b 等模型中,采用了分組查詢注意力方法,使得模型在推理時更加高效,能夠更好地處理長序列數據,支持更長的上下文長度,如 110b 模型支持 32k 上下文長度,為處理復雜的多輪對話和長篇文本提供了有力支持3.
- 預訓練與微調:通義千問的訓練過程分為預訓練和指令微調兩個階段。預訓練階段使用海量的文本數據,包括公共網絡文檔、百科全書、書籍、代碼等,涵蓋多種語言,以學習語言的共性知識和語義理解能力。在預訓練的基礎上,通過指令微調進一步優化模型在特定任務和領域上的性能,使其能夠更好地滿足各種實際應用的需求1.
- 高效的分詞器:采用開源快速 BPE 分詞器 tiktoken,并以 cl100k 為基礎詞庫,同時為提高模型在多語言下游任務,特別是中文上的性能,增加了常用的中文字詞以及其他語言的詞匯來擴充詞匯量,并把數字字符串拆成單個數字,最終詞表大小為 152k,相比其他模型實現了更高的壓縮效率,降低了模型服務成本1.
- 去除偏差與規范化:在模型的大多數層中移除了偏差,而在 QKV 注意力層中添加了偏差,以增強模型的外推能力;同時采用預規范化方法(Pre-Normalization)提高訓練穩定性,并將傳統層歸一化方法替換為 RMSNorm;采用 Swiglu 激活函數,縮小了前饋網絡的維度,提高了模型的訓練和推理效率1.
模型功能
- 基礎功能:具備語義理解與抽取、閑聊、上下文對話、生成與創作、知識與百科、代碼、邏輯與推理、計算、角色扮演等 10 項基礎能力,能夠滿足用戶在各種場景下的多樣化需求,如回答問題、生成文本、進行邏輯分析等1.
- 多模態支持:通義千問 2.0 版本支持文本回答、圖片理解、文檔解析三種模式,用戶可以在網頁端上傳圖片和文檔并詢問與之相關的問題,實現了對多模態信息的理解和處理,為用戶提供更豐富、更全面的交互體驗1.
- 特色功能百寶袋:預先提供了針對不同場景小應用的集合,包括創意文案、辦公助理、學習助手、趣味生活等四大類型。例如,創意文案方面可以生成短視頻劇本、祝福語、電影劇本等;辦公助理方面可以撰寫營銷文案、生成 PPT 大綱等;學習助手方面可以解答學習問題、進行詩歌分析等;趣味生活方面可以提供高情商回復、健身計劃等,方便用戶快速上手并滿足不同的個性化需求1.
- AI 語音對話:通義千問 app 支持 AI 語音對話功能,用戶可以直接通過語音向 AI 提問,AI 也會以語音形式回答,并可隨時開啟新話題,同時還提供溫柔、幽默、嚴謹、親切四種音色供用戶選擇,提升了用戶與 AI 交互的便捷性和自然度1.
數據處理與質量保障
- 海量數據收集:通義千問的預訓練數據共有 3 萬億 tokens,來源廣泛,涉及多語言的公共網絡文檔、百科全書、書籍、代碼等,但以中文和英文為主,為模型提供了豐富的知識儲備,使其能夠學習到不同領域、不同語言的語義和邏輯關系1.
- 數據預處理:為保證數據質量,開發團隊制定了全面的預處理程序。包括從 HTML 中提取文本內容,并采用語言識別工具確定語種;使用重復數據刪除技術,如規范化后的精確匹配重復數據刪除方法,以及使用 Minhash 和 LSH 算法的模糊重復數據刪除方法;結合規則和機器學習的方法過濾低質量數據,通過多種模型對內容進行評分;手動對各種來源的文本進行采樣和審查等,確保模型在高質量的數據上進行訓練1.
應用場景
- 行業應用:基于通義千問大模型,阿里云針對不同行業領域開發了通義靈碼、通義智文、通義聽悟、通義星塵、通義點金、通義曉蜜、通義仁心、通義法睿 8 個行業應用模型,廣泛應用于電子商務、金融、醫療、教育、工業等多個行業,為企業提供個性化的解決方案,幫助企業提高生產效率、優化服務質量、創新業務模式等。例如,在電子商務中提供商品查詢、推薦等服務;在金融領域提供投資建議;在醫療行業提供初步的醫學診斷等13.
- 企業合作與創新:通義千問的開源模式吸引了眾多企業和研究機構的參與,催生出了 150 多款新模型、新應用,如路面清潔機器人和心理健康大模型 MindChat 等,推動了大模型技術在各領域的創新實踐和落地應用,促進了人工智能產業的發展1.
- 個人用戶服務:為個人用戶提供了便捷的智能助手,幫助用戶解決各種問題,如學習中的困惑、生活中的瑣事、工作中的任務等,提高了用戶的生活和工作效率,豐富了用戶的娛樂體驗12.
開源與生態建設
通義千問積極推動開源生態建設,開源了多款不同參數規模的大語言模型以及多模態大模型,包括 18 億、70 億、140 億、720 億參數的大語言模型,以及視覺理解、音頻理解等多模態大模型,實現了 “全尺寸、全模態” 開源,累計下載量超過 700 萬,成為最受開發者歡迎的開源大模型之一,為開發者提供了豐富的資源和技術支持,降低了大模型的應用門檻,促進了人工智能技術的普及和發展1.