发布日期:2025-04-16 07:56 点击次数:119
4.1 与 4.5 孰大?OpenAI 刚刚给出谜底:宿舍 自慰
发布GPT-4.1,比 GPT-4.5 强的那种。
新模子系列更新,一共带来三个版块:GPT-4.1,GPT-4.1 mini、GPT-4.1 nano ——
与经常中杯大杯超大杯的树立不同,这回翻译过来,是中杯、小杯、超小杯。
OpenAI 默示,4.1 系列是API 专供,不外诸君非拓荒者先别急哈,东谈主家也补充了,在 ChatGPT 里,4.1 的智商将主要通过"融入最新版块的 GPT-4o"体现。
智商方面,回来起来 4.1 系列纸面上最隆起的上风有两点:
长落魄文,3 个型号均领有 100 万 token 落魄文窗口;
性价比,用里面老哥的说法即是:
咫尺你不错用 4% 的价钱,畅享 GPT-4o 模子品性。
OpenAI 还默示,GPT-4.1 系列会在 API 里取代 GPT-4.5 Preview,后者将于本年(2025 年)7 月 14 日下架。
GPT-4.1:主打性价比
张开来看,OpenAI 合座上是把 GPT-4.1 和 GPT-4o 拿来对比的。
以延伸为横轴,以智能为纵轴,不错看到,GPT-4.1 比 GPT-4o 强了一丢丢,而 4.1 mini 则超出了 4o mini 一大截。
定量相比的服从是,编码方面,GPT-4.1 在辩论真正宇宙软件工程妙技的 SWE-bench Verified 上得分为 54.6%,比 GPT-4o 的分数晋升了 21.4%,比 GPT-4.5 强了 26.6%。
指示盲从方面,在 MultiChallenge 基准中,GPT-4.1 得分 38.3%,而 GPT-4o 的得分是 27.8%。
长落魄文方面,在多模态长下文意会基准 Video-MME 上,GPT-4.1 刷新 SOTA,在长篇无字幕类别中得分 72.0%,比 GPT-4o 高了 6.7%。
值得注认识是,GPT-4.1 mini 在多项基准测试中迥殊了 GPT-4o。
比如在智能评估基准 MMLU 上,GPT-4.1 mini 的得分为 87.5%,迥殊了 GPT-4o 的 85.7%,同期延伸缩短一半,资本缩短 83%。
GPT-4.1 nano 则被定位为 OpenAI "咫尺速率最快、资本最低"的模子。而况在部分测试中有超出 GPT-4o mini 的进展。
编码智商
OpenAI 看管强调了 GPT-4.1 的编码智商。除了在各式编程任务上都迥殊 GPT-4o,OpenAI 还演示了其在前端编程方面的骨子上风:
大约创立功能更浩瀚、更好意思不雅的 Web 运用。
东谈主类评分的服从流露,在 80% 的对比测试中,GPT-4.1 的网站都比 GPT-4o 的网站更受迎接。
比如给出合并段指示词:
Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user ’ s collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app ( put all styles inline ) .
GPT-4o 生成的网站长这么:
而 4.1 的服从光显更好意思不雅:
手快的网友则仍是搞出了全球更念念看的——小球测试。
BTW,OpenAI 提到,GPT-4.1 会在 API 里取代 GPT-4.5,GPT-4.5 Preview 将在 3 个月后(2025 年 7 月 14 日)透彻关闭,但这位老哥默示:我照旧更可爱 4.5 啊啊啊。
不外,老哥也坦承:4.5 虽好,但 4.1 如实低廉太多啦(30 倍价差)。
百万长落魄文
再来看一眼长落魄文方面,GPT-4.1 的具体进展。
大海捞针推行中,面临 100 万 token 落魄文检索,3 个型号均能 100% 过关。
OpenAI 还开源了一个新的评估平台OpenAI-MRCR,以测试模子检索和意会多条信息、并意会信息之间互干系系的智商。也即是说更接近骨子运用中,全球对长落魄文的真正需求。
服从如下:
还发布了一个用于评估多跳落魄文推理的数据集Graphwalks。所谓多跳,即在长落魄文中进行屡次逻辑迥殊,比如编写代码时在多个文献之间跳转。
在这个基准上,GPT-4.1 与 o1 性能绝顶,简略打败了 GPT-4o。
性价比仍不如 DeepSeek R1
价钱方面,联系于自家贵得要命的模子,GPT-4.1 系列无疑是低廉的。
尤其是对比要被替代的 GPT-4.5 Preview,2 刀 / 百万 tokens vs 75 刀 / 百万 tokens,价钱属于大砍一刀只剩零头了。
但看管的网友们发现,照旧比不上 DeepSeek R1:
△图源:x@bongrandpOne More Thing
以上,你以为 GPT-4.1 如何?
归正这个定名面目如实是蛮值得吐槽的。
但没准儿,OpenAI 的意旨兴致是… 4.10>4.5?
至少奥特曼本尊有被劝服到(doge)。
他还自嘲了一波:
咱们能不成在今天夏天之前措置咱们的模子定名?在此之前每个东谈主都不错再花几个月本事来取消咱们(咱们该死)。
参考贯穿:
https://openai.com/index/gpt-4-1/
幼女强奸一键三连「点赞」「转发」「遏制心」
迎接在驳斥区留住你的念念法!
— 完 —
不到一周!中国 AIGC 产业峰会不雅众正在火热报名中 � � ♀️
全部嘉宾已就位 � � 百度、华为、AWS、MSRA、无问芯穹、数势科技、面壁智能、生数科技等十数位 AI 范畴创变者将王人聚峰会,让更多东谈主用上 AI、用好 AI,与 AI 一同加快成长~
4 月 16 日周三,就在北京,一齐来深度求索 AI 怎样用 � �
� � 一键星标 � �
科技前沿进展逐日见宿舍 自慰
上一篇:麻生希快播 “年入9w的家庭,咋念念的生孩子?”武汉姆妈无奈删帖看清执行_诠释_考好_本科率
下一篇:@91porn_soul 好意思国自然气期货日内走低3%,现报3.225好意思元/百万英热