馬斯克：Grok 正在開發語音交互功能；階躍星辰開源產品級語音交互大模型 Step-Audio 丨日報

chenxinyao 2025-03-30 設備原理 19 次瀏覽 0個評論

開發者朋友們大家好：

這里是 「RTE 開發者日報」 ，每天和大家一起看新聞、聊八卦。我們的社區編輯團隊會整理分享 RTE（Real-Time Engagement）領域內「有話題的新聞」、「有態度的觀點」、「有意思的數據」、「有思考的文章」、「有看點的會議」，但內容僅代表編輯的個人觀點，歡迎大家留言、跟帖、討論。

本期編輯：@qqq，@鮑勃

1、OpenAI 官宣開源！奧特曼在線征集方案，OpenAI 真的要 Open 了

OpenAI CEO Sam Altman 在 X 平臺發文稱：

「對于我們的下一個開源項目，我們應當選擇開發一個雖然體積小但仍然需要借助 GPU 運行的 o3 mini 層級模型，還是應當致力于開發一個尺寸適合手機且表現最佳的模型呢？」

此外，Altman 還發起了投票。

截至發稿前，端側模型的投票率大幅領先（編者注：北京時間 18 日下午 o3-mini 反超了），相比于 o3 mini 的開源，顯然高贊評論的網友更希望開源 GPT-4。

Altman 曾在本月初公開承認 OpenAI 的閉源策略「站在了歷史錯誤的一邊」。( @APPSO)

2、階躍星辰聯合吉利首次開源 Step 系列多模態大模型

IT 之家 2 月 18 日消息，今日階躍星辰和吉利汽車集團聯合宣布，將雙方合作的階躍兩款 Step 系列多模態大模型向全球開發者開源。其中，包含目前全球范圍內參數量最大、性能最好的開源視頻生成模型階躍 Step-Video-T2V，以及行業內首款產品級開源語音交互大模型階躍 Step-Audio。

據 IT 之家了解，階躍 Step-Video-T2V 模型的參數量達到 300 億，可以直接生成 204 幀、540P 分辨率的高質量視頻。階躍星辰稱， 從其獲得的測評結果來看，它是目前全球范圍內參數量最大、性能最好的開源視頻生成大模型。

階躍 Step-Audio 是行業內首個產品級的開源語音交互模型，能夠根據不同的場景需求生成情緒、方言、語種、歌聲和個性化風格的表達，能和用戶自然地高質量對話。模型生成的語音具有超自然、高情商等特征，同時也能實現高質量的音色復刻。用戶即日起可在躍問 App 內體驗新功能。（@IT 之家）

3、馬斯克發布 Grok-3，反擊 DeepSeek、OpenAI

今天中午 12 點 20，馬斯克旗下的大模型平臺 xAI 進行技術直播，并發布了最新大模型——Gork3。

與第二代相比，Gork3 使用的算力提升了 310 倍，性能提升了 15 倍，硬件基礎相當的猛。

根據測試數據顯示，Gork3 在美國 AIME 數學競賽、GPQA、代碼編程方面，性能高于 OpenAI 的 o1、o3mini 以及 DeepSeek 的 R1。

Gork3 架構簡單介紹

Grok3 采用了深度學習和強化學習相結合的方法。通過深度學習，模型能夠從大量數據中提取特征和模式。強化學習使 Grok3 能夠在訓練過程中不斷調整自身的策略，以獲得更高的獎勵信號。在推理任務中，Grok3 通過多次嘗試和驗證，不斷優化自身的推理路徑，從而找到最優解。

Grok3 的深度搜索功能是其架構中的另一個重要模塊，夠快速檢索和驗證信息，為用戶提供準確的答案。深度搜索模塊的設計靈感來源于當前最先進的搜索引擎技術，但 Grok3 在此基礎上進行了顯著的改進和優化。

深度搜索模塊能夠模擬人類的搜索過程，不僅能夠快速檢索大量的信息，還能通過推理和驗證確保信息的可靠性。在搜索過程中，Grok3 會生成一個高級進度條，展示其思考和搜索的過程。搜索完成后，在界面右側會顯示查詢模型的啟動摘要，包括瀏覽了哪些網站、驗證了哪些來源，并且通常會交叉驗證不同的來源，以確保答案的準確性。

Gork3 測試數據

測試結果顯示，Grok3 在各個領域的表現都很出色。在高中競賽數學測試中，Grok3 展現出了強大的解題能力；在博士級科學問題的解答上，也能夠給出高質量的答案；在編程測試中，無論是競爭性編碼還是面試問題，都非常出色。

除了基準測試，xAI 還對 Grok3 進行了盲測。該平臺剝離了產品服務，僅對語言模型的引擎進行原始比較。用戶在該平臺上提交單一查詢，會得到兩個不同模型的響應，但無法知道這些響應來自哪個模型。

在這次盲測中，Grok3 的早期版本取得了令人矚目的成績，綜合得分達到了 1400 分，在所有類別中均排名第一，且分數還在不斷上升。

馬斯克補充稱：「如果你想要一個更完善的版本，可能要等待一周，但每天都會有所改進。我們還在開發語音交互功能，我認為這將是 Grok 3 最好的體驗之一。」（@AIGC 開放社區）

4、國內首個短劇創作大模型開源了，一個人就能拍短劇，單卡 80 秒出大片

2 月 18 日，昆侖萬維開源中國首個面向 AI 短劇創作的視頻生成模型 SkyReels-V1、中國首個 SOTA 級別基于視頻基座模型的表情動作可控算法 SkyReels-A1。

針對當前全球 AI 視頻生成模型和產品不開源、用不到、費用高、不好用等痛點，昆侖萬維 SkyReels 一次性開源 SkyReels-V1 和 SkyReels-A1 兩個 SOTA 級別的模型和算法，將面向 AI 短劇創作的技術成果回饋開源社區和 AIGC 用戶。而這只是我們在 AI 視頻方向開源道路上的起點，未來將陸續開源更多面向 AI 短劇的優秀研究成果。

SkyReels-V1：Human-Centric Video Foundation Model 中國首個面向 AI 短劇創作的開源視頻生成模型

得益于扎實的數據工作和先進的人物智能解析系統，SkyReels-V1 可以實現：

影視化表情識別體系：11種針對影視戲劇中的人物表情理解，如不屑、不耐煩、無助、厭惡等表情的理解；
人物空間位置感知：基于人體三維重建技術，實現對視頻中多人的空間相對關系理解，助力模型生成影視級人物站位；
行為意圖理解：構建超過 400 種行為語義單元，實現對人物行為的精準理解；
表演場景理解：實現人物 - 服裝 - 場景劇情的關聯分析。

SkyReels-A1：首個 SOTA 級別的基于視頻基座模型的表情動作可控算法

SkyReels-A1 能夠基于任意人體比例（包括肖像、半身及全身構圖）生成高度逼真的人物動態視頻，其真實感源自對人物表情變化和情緒的精準模擬、皮膚肌理、身體動作跟隨等多維度細節的深度還原。

SkyReels-A1 不僅支持側臉的表情控制生成、還能實現更加逼真的眉眼微表情生成和更大幅度的頭部與自然身體動作。

SkyReels-A1 能夠實現更大幅度的人物表情驅動。在下面視頻中可以看到，相比 Runway 的 Act-One（無法生成），SkyReels-A1 可以遷移更復雜的表情動作，生成的人物面部神情可以配合肢體及畫面內容實現更栩栩如生的表演。

開源地址：
SkyReels-V1: https://github.com/SkyworkAI/SkyReels-V1 SkyReels-A1: https://github.com/SkyworkAI/SkyReels-A1

技術報告：
https://skyworkai.github.io/skyreels-a1.github.io/report.pdfSkyReels

官方地址：
skyreels.ai（@機器之心）

1、YOTO 把兒童聽書 APP 做成了音箱，一年賣出 1 億美金

（圖片來源：YOTO）

創立于 2015 年的 YOTO 累計融資總額已超過 5750 萬美元。在電子設備普及的今天，許多孩子沉迷于屏幕。為了幫助孩子與家長擺脫「屏幕依賴」，YOTO 推出了專注于「有聲讀物」的兒童無屏智能音箱。

YOTO 的智能音箱設計靈感來源于兒時的卡帶播放器，用戶只需插入內容卡片即可播放音頻。其內容生態系統類似現代的音頻聽書 APP，提供超過 1000 種有聲讀物，包括故事、音樂、廣播和繪本等多樣化內容。目前，YOTO 主要推出兩款核心產品：一是帶有夜燈功能的家用智能音箱 YOTO Player，二是便于攜帶的小型音箱 YOTO Mini。

主要功能：

無屏設計：YOTO 音箱采用無屏設計，避免了屏幕對兒童視力的潛在傷害，同時培養孩子的專注力和想象力。
卡片系統：通過插入不同的內容卡片，孩子們可以輕松切換故事、音樂、教育內容等，操作簡單直觀。
豐富內容：YOTO 與多家知名 IP 合作，提供超過 1000 種有聲讀物，涵蓋故事、音樂、廣播、繪本等多種類型。
家長控制：配套的手機應用允許家長遠程控制設備，設置播放時間和內容限制，確保兒童使用安全。
夜燈功能：YOTO Player 內置柔和的夜燈，可以幫助孩子安心入睡。
便攜設計：YOTO Mini 采用小巧輕便的設計，方便外出攜帶，隨時隨地享受音頻內容。（@白鯨出海）

2、DeepSeek 沖擊之下月之暗面 Kimi 暫緩「燒錢」

月之暗面近期決定大幅收縮產品投放預算，包括暫停多個安卓渠道的投放，以及第三方廣告平臺的合作。記者據此向月之暗面方面求證，截至發稿對方暫未置評。

在 DeepSeek 席卷全球 AI 產業鏈后，這是大模型「六小虎」之中第一家在投放策略上有明顯反應的公司。據記者了解，月之暗面內部對此次調整解釋稱，公司近期受到「外部因素和內部戰略調整影響」。Kimi 是 DeepSeek 崛起之前，國內話題度最高的來自創業公司的 AI 產品。但除了用戶體驗本身，當時外界圍繞它更多的討論在于擅長營銷和投流獲客。彼時，小紅書、B 站、知乎等都是 Kimi 重點投放的平臺。（@界面新聞）

3、深圳福田、廣州上線「AI 公務員」：部署 DeepSeek 大模型覆蓋 240 個場景

近日，深圳市福田區和廣州市相繼宣布上線基于 DeepSeek 大模型的「AI 公務員」（數智員工），標志著兩地在智慧政務建設方面邁出了重要一步。

據「幸福福田」公眾號消息，福田區推出了基于 DeepSeek 開發的 AI 數智員工，并升級了福田區政務大模型至 2.0 版。這些「數智員工」不僅具備 DeepSeek 的通用能力，還結合各部門實際業務流程進行了個性化定制，首批已能滿足 240 個業務場景的使用需求。

目前，福田區已上線 11 大類 70 名「數智員工」，覆蓋政務服務全鏈條，包括公文處理、民生服務、應急管理、招商引資等多個領域。通過構建「需求-訓練-場景應用-迭代」的閉環生態體系，實現了「技術穿透業務」的智能化服務升級。

據報道，個性化定制生成時間已從 5 天壓縮至分鐘級，公文格式修正準確率超過 95%，審核時間縮短 90%，錯誤率控制在 5% 以內，顯著提升了政務服務效率。

廣州市政務服務和數據管理局也于近日在外網正式部署上線 DeepSeek-R1、V3671B 大模型。通過融合海量政務數據要素，大模型將豐富政務服務場景應用。

值得一提的是，此次大模型上線工作依托數字廣州創新實驗室實施，并已完成 DeepSeek-R1 等模型與國產硬件的深度適配。（@AIbase 基地）

4、秘塔科技推出「先想后搜」研究模式，引領 AI 搜索新趨勢

近日，秘塔科技宣布其 AI 搜索平臺上線了全新的研究模式 ——「先想后搜」。這一創新模式的核心在于讓 AI 模型首先提出思考框架與路徑，從而為后續的信息整合與分析奠定基礎。通過這種方式，用戶能夠更高效地獲取所需信息，極大地提升了研究效率。

據了解，「先想后搜」模式采用了「小模型 + 大模型」的協同架構。具體來說，涉及深度推理的思考框架和步驟拆解任務交由 DeepSeek R1 來完成，而信息搜索與資料整合則是由秘塔自研的模型負責。這種分工合作的方式，使得秘塔在僅僅 2 到 3 分鐘內就能完成對數百個網頁的搜索與分析，展現出了超高的工作效率。

與傳統的研究方式相比，專業研究者往往需要數天的時間來收集和整理資料。然而，秘塔的這一新模式能夠在短時間內完成淺度研究（Shallow Research），這對于那些需要快速收集信息以進行初步分析的用戶來說，無疑是一個福音。（@AIbase 基地）

5、騰訊元寶發布重大更新：混元與 DeepSeek 兩大模型均支持深度思考

（圖片來源：三花 AI）

2 月 17 日下午消息，騰訊 AI 助手「騰訊元寶」再次迎來重大更新，混元+DeepSeek 兩大模型均支持深度思考功能，用戶下載并打開騰訊元寶即可免費使用。

此次更新后，除 DeepSeek-R1 滿血版外，騰訊自研的混元 T1 深度思考模型也在騰訊元寶開啟小范圍灰測，用戶可以自行選用不同模型解決復雜問題。騰訊方面表示，元寶目前同時支持騰訊混元大模型和 Deepseek 大模型，為用戶提供更多選擇。未來將優化產品能力，提升模型性能，打造出更好用的 AI 助手。（@新浪科技）

1、Sam Altman：我們的使命是確保 AGI 惠及全人類

（圖片來源：Unsplash）

2025 年 2 月 17 日，OpenAI 首席執行官 Sam Altman 在演講中強調，通用人工智能（AGI）的發展將為人類帶來深遠影響，其使命是確保 AGI 的益處能夠廣泛惠及全人類。Altman 指出，AGI 是一種能夠在人類水平上解決多領域復雜問題的系統，其發展是人類進步的延續，類似于電力、晶體管和互聯網等重大發明。他預測，未來十年內，AGI 將推動經濟增長，改善人類生活質量，并可能實現治愈疾病、增加休閑時間和釋放創造力等目標。

Altman 分享了關于人工智能經濟的三個關鍵觀察：一是 AI 模型的智能與訓練和運行資源的對數成正比；二是 AI 使用成本每 12 個月下降約 10 倍，推動其廣泛應用；三是智力增長的社會經濟價值呈超指數級上升，促使投資持續增加。他提到，未來 AI 代理將像虛擬同事一樣融入工作場景，尤其在軟件工程領域，能夠完成初級工程師的任務，且隨著數量的增加，其影響力將不斷擴大。

盡管短期內生活模式不會發生劇變，但 AGI 的長期影響將是巨大的。Altman 認為，AGI 將像晶體管一樣滲透到經濟的各個角落，推動社會和經濟的變革。然而，AGI 的影響將是不均勻的，某些行業將經歷快速變革，而奢侈品和有限資源的價格可能會上漲。

Altman 強調，公共政策和公眾對 AGI 的接受程度至關重要。他呼吁通過早期和頻繁的產品推出，讓社會和技術共同發展，并在個人賦權與安全之間尋求平衡。他還提到，為確保 AGI 的益處廣泛分配，需要探索新的政策，如「計算預算」，以降低智能成本，使更多人能夠受益于人工智能。到 2035 年，目標是讓每個人都能獲得相當于 2025 年人類智力水平的 AI 資源，從而釋放全球創意潛力，推動社會進步。(@Z Potentials)

在這里插入圖片描述

更多 Voice Agent 學習筆記：

報名丨Computer use&Voice Agent ：使用 TEN 搭建你的 Mac Assistant

多模態 AI 怎么玩？這里有 18 個腦洞

AI 重塑宗教體驗，語音 Agent 能否成為突破點？

對話 TalktoApps 創始人：Voice AI 提高了我五倍的生產力，語音輸入是人機交互的未來

2024，語音 AI 元年；2025，Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管：打造通用 AI 助理，主動視頻交互和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元，并預測了 2025 年語音技術趨勢

語音即入口：AI 語音交互如何重塑下一代智能應用

寫在最后：

我們歡迎更多的小伙伴參與「RTE 開發者日報」內容的共創，感興趣的朋友請通過開發者社區或公眾號留言聯系，記得報暗號「共創」。

對于任何反饋（包括但不限于內容上、形式上）我們不勝感激、并有小驚喜回饋，例如你希望從日報中看到哪些內容；自己推薦的信源、項目、話題、活動等；或者列舉幾個你喜歡看、平時常看的內容渠道；內容排版或呈現形式上有哪些可以改進的地方等。

在這里插入圖片描述

素材來源官方媒體/網絡新聞

轉載請注明來自青島峻峰水處理設備有限公司，本文標題：《馬斯克：Grok 正在開發語音交互功能；階躍星辰開源產品級語音交互大模型 Step-Audio 丨日報》

chenxinyao 441篇文章站點微博

每一天，每一秒，你所做的決定都會改變你的人生！

? 2025年4月 ?
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

chenyahui管理員

最新文章

網站收藏

馬斯克：Grok 正在開發語音交互功能；階躍星辰開源產品級語音交互大模型 Step-Audio 丨日報

最近發表

友情鏈接

文章目錄

chenyahui管理員

最新文章

網站收藏

馬斯克：Grok 正在開發語音交互功能；階躍星辰開源產品級語音交互大模型 Step-Audio 丨日報

城陽協警招聘最新信息，城陽區協警招聘公告發布

鄧州客戶服務招聘網最新，鄧州客戶服務招聘網更新職位列表

星耀廣場最新樓盤信息，星耀廣場最新樓盤全面解析

松桃孟溪招聘信息最新，探索職業發展的新天地，松桃孟溪最新招聘信息，探索職業發展新天地

黃陵招聘電焊工最新信息，職業前景、需求與如何應聘，黃陵電焊工招聘最新信息及職業前景、應聘指南

影子洋洋最新消息全面解讀，音樂才子創作新篇章的獨家報道，影子洋洋全新動態揭秘，音樂才子開啟創作新篇章的獨家報道

南僑食品最新招聘消息，南僑食品最新招聘啟事

宜昌招工最新招聘信息網，宜昌最新招聘信息匯總平臺

“澳門最新精準免費手機網站”·及時播報_青島峻峰水處理設備有限公司

“澳門最準四期期中”·深度挖掘_青島峻峰水處理設備有限公司

“2023年澳門正版資料大全公開”·瞬間洞察_青島峻峰水處理設備有限公司

“新澳門內部資料精準大全”·即時報道_青島峻峰水處理設備有限公司

“今晚必出三肖2025'澳門”·當場解析_青島峻峰水處理設備有限公司

“2021一肖一碼精準”·第一瞬間_青島峻峰水處理設備有限公司

“2025澳門原料免費大全1”·最新趨勢_青島峻峰水處理設備有限公司

“新2025年澳門天天開好彩掛牌圖澳門開獎結梁”·熱點追蹤_青島峻峰水處理設備有限公司

最近發表

友情鏈接

文章目錄