欢迎您进入山西酷游KU游集团股份有限公司!
酷游KU游|swag台湾官网|通义千问 Qwen3 发布对话阿里周靖人
今天(4 月 29 日)清晨★✿★,阿里巴巴更新通义千问(Qwen)系列最新一代基础模型 Qwen3★✿★,并开源 8 个版本★✿★。
Qwen3 是中国的首个混合推理模型(hybird reasoning model)★✿★,也是全球第一个开源的混合推理模型——即在同一个模型中融合了 “推理” 和 “非推理” 模式★✿★,能像人那样根据不同问题选择 “快★✿★、慢思考”★✿★。
Qwen3 旗舰模型★✿★,MoE(混合专家模型)模型 Qwen3-235B-A22B★✿★,以 2350 亿总参数★✿★、220 亿激活参数★✿★,在多项主要 Benchmark(测评指标)上超越了 6710 亿总参数★✿★、370 亿激活参数的 DeepSeek-R1 满血版★✿★。更小的 MoE 模型 Qwen3-30B-A3B★✿★,使用时的激活参数仅为 30 亿★✿★,不到之前 Qwen 系列纯推理稠密模型 QwQ-32B 的 1/10★✿★,但效果更优★✿★。更小参数★✿★、更好性能★✿★,意味着开发者可以用更低部署和使用成本★✿★,得到更好效果★✿★。图片来自通义千问官方博客★✿★。(注★✿★:MoE 模型每次使用时只会激活部分参数★✿★,使用效率更高★✿★,所以有总参数★✿★、激活参数两个参数指标★✿★。)
Qwen3 发布前★✿★,我们访谈了阿里大模型研发一号位★✿★,阿里云 CTO 和通义实验室负责人★✿★,周靖人★✿★。他也是阿里开源大模型的主要决策者★✿★。
迄今为止★✿★,Qwen 系列大模型已被累计下载 3 亿次(综合 Hugging Face★✿★、魔搭等社区数据)其中 2.5 亿次是最近 7 个月新增的 ★✿★;基于 Qwen 的衍生模型数量超 10 万个★✿★,为全球第一★✿★。
阿里开源 AI 模型★✿★,早于 ChatGPT 引爆这一轮 AI 热潮★✿★。2022 年 11 月初★✿★,阿里上线开源模型分享平台魔搭社区★✿★,一口气开源了达摩院成立 5 年来研发的所有近 400 个模型★✿★。2023 年 8 月★✿★,阿里又决定开源 Qwen 系列大模型★✿★,目前已累计开源超 200 个模型★✿★。
在 2022 年底到 2023 年★✿★,开源大模型不是一个容易的选择★✿★:开源意味着需要接受开发者和市场的反馈★✿★,也要接受各方测试★✿★,对能力要求非常高★✿★。周靖人和阿里大模型团队选择接受开源的检验★✿★。
这之后★✿★,Qwen 仅用 1 年多在全球开源模型中后来居上★✿★:在去年 10 月★✿★,Qwen 的衍生模型数量达到 8 万多个★✿★,超越了更早开源的 Meta Llama 系列★✿★,此后持续领先★✿★。
苹果据传选择 Qwen 成为中国的大模型合作伙伴★✿★,李飞飞团队用 Qwen 来训练超低成本推理模型★✿★,通用 Agent 产品 Manus 调用 Qwen 来做决策规划★✿★,DeepSeek-R1 的部分小尺寸模型也用到了 Qwen 来训练★✿★。
但相比在技术社区的影响力★✿★,Qwen 在泛商业界相对低调★✿★,几次关键发布被 “抢头条”★✿★。开发者调侃★✿★,Qwen 是大模型领域的 “汪峰”★✿★。
周靖人戴着金丝眼镜★✿★,语调缺乏起伏★✿★、语速也几乎一致★✿★,平稳有如程序★✿★。3 小时的访谈中★✿★,他讲得最多的是 “技术规律”★✿★。
聊起阿里集团 CEO 吴泳铭今年 2 月说 “阿里现在的首要目标是追求 AGI”★✿★,周靖人说★✿★:
“今天外界听到吴泳铭宣布了什么★✿★,感觉阿里好像突然有个大转变★✿★,其实不是★✿★。从技术发展规律来说★✿★,没有前期积累不可能一蹴而就★✿★。”
周靖人在 2015 年从微软加入阿里巴巴★✿★,在 iDST 和达摩院带过前沿技术研发★✿★,也在蚂蚁★✿★、淘宝做过实际业务落地★✿★。
以下是《晚点》对周靖人的访谈★✿★,他回顾了阿里开发大模型的过程★✿★,开源的关键决策★✿★,和他对当前大模型技术的思考★✿★。
晚点★✿★:指阿里的重磅发布常被 “抢了头条”★✿★。先是春节更新基座模型 Qwen2.5-Max★✿★,被 DeepSeek 推理模型 R1 抢了风头★✿★;后来 3 月发布推理模型 QwQ-32B ★✿★,又赶上大火的 Agent 产品 Manus 同天发布★✿★。
周靖人★✿★:首先★✿★,我们的一个核心认知是★✿★,大模型发展和云体系的支撑不可分割★✿★。无论训练还是推理★✿★,大模型的每一次突破★✿★,表面看是模型能力演进★✿★,背后其实是整个云计算和数据★✿★、工程平台的全面配合和升级★✿★。
在模型能力上★✿★,大家现在讨论最多的是推理模型★✿★。我们在继续探索让模型能更像人那样去思考★✿★,未来甚至能自我反思★✿★、自我纠错等★✿★。
多模态也是通向 AGI 的重要途径★✿★。人的大脑也是有的部分处理文字★✿★,有的部分处理视觉★✿★、声音★✿★。我们要让大模型能理解并贯通各个模态★✿★。
我们也在探索新的学习机制★✿★,包括怎么能让模型在线学习★✿★、持续学习和自学习(Self Learning)★✿★。(注★✿★:现在的模型训练是 “离线学习”★✿★,每次升级需要重新做预训练★✿★、更新版本★✿★。)
在提升云体系的性能和效率上★✿★,我们会加强云和模型的软硬一体联合优化★✿★。尤其在今年★✿★,工程能力★✿★、整个云系统结合 AI 的性能和效率会变成核心竞争力★✿★。
周靖人★✿★:大模型发展到现在★✿★,已经从早期阶段的初期★✿★,进入了早期阶段的中期★✿★,不可能只在单点能力上改进了★✿★。因为真正的通用人工智能★✿★,就是需要多模态★✿★、工具使用★✿★、Agent 支持和持续学习等多种能力★✿★,等(某个方向)跑出来再做是来不及的★✿★。不光我们★✿★,头部公司都会在多个方向上提前预研★✿★。
周靖人★✿★: Qwen3 是一个混合推理模型★✿★,它同时提供了 “推理模式” 和 “非推理模式”★✿★,前者用于复杂逻辑推理酷游KU游★✿★、数学和编程★✿★,后者能处理日常指令和高效对话★✿★。混合推理模型今后是大模型发展的重要趋势★✿★。
周靖人★✿★:它能更好平衡性能和成本★✿★。在 “推理模式” 下★✿★,模型会执行分解问题★✿★、逐步推导★✿★、验证等中间步骤★✿★,给出 “深思熟虑” 的答案★✿★;在 “非推理模式” 下★✿★,则可以快速遵循指令生成答案★✿★。
Qwen3 还有一个 “思考预算” 设置——开发者可以自己设定深度思考的最大 token 消耗★✿★,这能更好满足不同开发者对性能和成本的需求★✿★。
周靖人★✿★:混合推理模型是通过推理和非推理的混合训练做到的★✿★,这需要模型学习两种不同的输出分布★✿★,很考验训练策略★✿★。所以设计和训练混合推理模型★✿★,远比做单纯的推理模型要难★✿★。
Qwen3 在后训练阶段swag台湾官网★✿★,也是两种模式混合训练★✿★,相当于合并了推理模型 QwQ 系列和指令微调模型 Qwen2.5-instruct 系列★✿★,同时将它们的优势并合二为一★✿★。
晚点★✿★:阿里现在怎么把握模型更新节奏?发布节奏和声量也是现在各公司的竞争点★✿★,比如 OpenAI 有几次更新都是赶在 Google 的重磅发布之前★✿★。
晚点★✿★:Qwen 系列下载量在全球仅次于 Llama★✿★,同时是衍生模型数量最多的开源模型★✿★,但市场对此认知不够★✿★,这会让阿里困扰吗?你们想了什么方法来增加技术影响力?
周靖人★✿★:其实通义千问的传播是不错的★✿★。核心还是在于开源的模型要足够强★✿★,否则其他方式都没什么用★✿★。
晚点★✿★:通义千问何时会有一个真正出圈的★✿★、让更多人 eye-opening 的进展?类似 Sora★✿★、DeepSeek-R1 曾引起的关注★✿★。
周靖人★✿★:通义千问接下来会有很多亮点★✿★,但能否让大家 eye-opening★✿★,这要看大家★✿★。我觉得有时我们太关注此时此刻★✿★,谁又比谁强一点点★✿★。但长远看★✿★,如果真认为 AGI 是最终目的地★✿★,当前的你追我赶都只是阶段性过程★✿★。
更重要的是★✿★,要知道自己在正确的方向上★✿★,以及要持续★✿★、长期创新★✿★。所以不用太纠结★✿★,今天或明天★✿★,是不是比别人又多了一个身位★✿★。
周靖人★✿★:我们肯定要保持在第一梯队★✿★。我们也追求每一代模型发布时★✿★,都有技术突破★✿★,能代表领域当前最高水平★✿★。
同时我们也多次内部强调★✿★,这不是一个短期竞争★✿★,不是靠一时把弦绷多紧★✿★,而是要长期创新★✿★。整个科技发展需要定力swag台湾官网★✿★,也希望给行业一些时间和耐心★✿★。
晚点★✿★:在今年 2 月的阿里财报会议上★✿★,阿里集团和阿里云 CEO 吴泳铭说 “阿里现在的首要目标是追求 AGI★✿★,持续开发拓展智能边界的大模型”★✿★。作为阿里大模型负责人★✿★,你是何时明确最大目标是 AGI 的?
周靖人★✿★:今天外界听到吴泳铭宣布了什么★✿★,感觉阿里好像突然有个大的转变★✿★,其实不是这样的★✿★。从技术发展规律来说★✿★,没有前期积累不可能一蹴而就★✿★。
阿里对 AI 投入非常早★✿★,Transformer 之前★✿★,就有 iDST(阿里数据科学与技术研究院★✿★,2014 年成立)和达摩院(2017 年成立)做 AI 前沿研究★✿★。Transformer 之后★✿★,我们从 2019 年开始做多模态 MoE(混合专家模型)模型★✿★,2021 年发布了万亿参数的 MoE 多模态大模型 M6★✿★。
Transformer 的核心在于预训练★✿★。它一开始并不带着一个特殊的具体任务★✿★,而是通过大量数据训练一个能适配多种任务的模型★✿★。
这是机器学习的一大突破★✿★。因为以前的模型要针对一个具体问题选择数据★✿★、做标注★✿★,模型能力不好迁移★✿★,往往是一个场景就要做一个模型★✿★。比如人脸识别就不好迁移到物体识别上★✿★。我们就是看中了预训练的泛化性★✿★,所以较早投入了这个方向★✿★。
晚点★✿★:最开始 Google 提出 Transformer 是处理 NLP(自然语言处理)问题★✿★,后来 OpenAI 做 GPT 也是先在语言上取得突破★✿★。而阿里是先重点做了多模态大模型★✿★,为什么是这样的选择?
周靖人★✿★:当时我也在负责淘宝的搜索和推荐★✿★。那时我们就意识到★✿★,对一个商品的理解★✿★,不单单是理解图片或文字描述★✿★、用户评论和各种点击★✿★、浏览数据★✿★。更精准的理解应该是一个多模态的全方位理解★✿★。
周靖人★✿★:电商是目标场景之一★✿★。另一方面★✿★,从 AGI 的演进逻辑看★✿★,多模态也不可或缺★✿★,AI 要能使用工具★✿★,甚至未来能在真实物理世界活动★✿★,都需要多模态能力★✿★。
这个例子也很好说明了★✿★,阿里很早就是一个技术公司★✿★。淘宝的成功★✿★,不仅是把货卖到线上★✿★,双十一的高并发★✿★、更精准的商品推荐都需要大量技术支持★✿★。
2009 年★✿★,阿里也开始做云计算★✿★,2014 年又开始基于云做一系列 AI 平台★✿★、数据平台★✿★,比如 MaxCompute 等★✿★。
晚点★✿★:从 2019 年开始做预训练模型到 2023 年的大模型热潮★✿★,阿里对大模型的认知和投入经历了什么变化?
周靖人★✿★:2022 年秋天 ChatGPT 发布前★✿★,阿里云最早在行业里提出了 MaaS(Model as a Service)★✿★,模型即服务★✿★。那时大模型还没火★✿★,所以大家听起来没什么感觉★✿★。
但当时我们已经看到★✿★,模型是新时代重要的生产元素★✿★。上一代云计算★✿★,在 IaaS (基础设施即服务)层是计算★✿★、存储★✿★、网络等计算元素★✿★,再往上是 PaaS (平台即服务)层的数据平台★✿★、机器学习平台等生产元素★✿★。而模型融合了数据和计算★✿★,是更高阶的产物★✿★。这里面有一个从 IaaS 到 PaaS 再到 MaaS 的路径★✿★。
另一个重要的动作是开源★✿★。我们做开源也很早★✿★,要追溯到 2022 年推出开源模型分享社区 “魔搭”★✿★,之后在 2023 年 8 月决定开源通义千问大模型系列★✿★。当时关注的人也不多★✿★,但今天大家已经更清楚看到了开源的价值★✿★。
晚点★✿★:开源之于阿里是一种竞争策略吗?比如你在微软的前同事沈向洋曾说★✿★:第一名总是闭源★✿★,第二名才开源★✿★。
周靖人★✿★:开源成功的例子也很多★✿★,比如上一代大数据体系★✿★,开源的 Spark★✿★、Flink 成为了主流★✿★。
我们开源大模型是基于两个判断★✿★:一是模型会成为核心生产元素★✿★,开源更利于它普及★✿★,能推动整个产业快速发展★✿★;二是开源已成为大模型的重要创新驱动力★✿★。
这种创新来自多个方面★✿★:一是★✿★,开源能让全球更多优秀人才参与技术创新★✿★,一起推动技术发展★✿★;同时★✿★,开源会降低企业使用模型的门槛★✿★,也因为开源免费★✿★,企业可以没有顾虑地尝试业务集成★✿★,这也推动更多企业内的开发者参与开源建设★✿★。所以社区开发者的技术创新和企业的反馈都会帮助建设技术生态★✿★、促进技术演进★✿★。
这是阿里做魔搭社区和开源通义千问的一贯逻辑★✿★,不是到了某个时间点才拍脑袋的决定★✿★。最初外界也不是那么理解★✿★,魔搭刚上线时默默无闻★✿★,但今天已成为中国最大的模型社区★✿★。
晚点★✿★:万一开源没做好★✿★,反而失去闭源的商业机会怎么办?当时讨论开源时★✿★,阿里高层里有哪些讨论和顾虑?
阿里的愿景是 “让天下没有难做的生意”★✿★;云的初心是让企业能在云上高效实现技术和业务创新★✿★;开源大模型是希望企业能更容易地把大模型用到业务里★✿★。所以这 3 个愿景高度一致★✿★、一脉相承★✿★。
同时从技术发展规律看★✿★,不开源反而风险更大★✿★,因为开源技术至少会追上闭源★✿★,甚至往往发展得更快酷游KU游★✿★、更强★✿★,Android★✿★、Spark 都是例子★✿★。
周靖人★✿★:一是看开发者的选择★✿★,去年我们占 Hugging Face 的下载量是 30% 多★✿★,基于通义千问的衍生模型数量也是最多的★✿★,已经超过 10 万个★✿★,这只追踪了反馈到开发者社区的数量★✿★,实际比这要多★✿★。
二是看性能指标★✿★,比如我们之前发的 QwQ-32B 模型★✿★,在 LeCun 做的 LiveBench 上超过了 R1★✿★,是最好的开源推理模型★✿★,这还不是 QwQ 的满血版★✿★。(注★✿★:LiveBench 从数学★✿★、推理★✿★、编程★✿★、语言理解★✿★、指令遵循和数据分析等多个复杂维度对模型进行评估★✿★;由图灵奖得主★✿★、Meta AI 首席科学家 Yann LeCun 领导编制★✿★。)
晚点★✿★:阿里通义千问系列比 Meta Llama 开源更晚★✿★,但反超了对方★✿★,Llama 的失误是什么★✿★,或者说你们可能做对了什么?
周靖人★✿★:我们很注重开发者需求★✿★,开源不是把代码或模型权重开出来就完了★✿★,是要真正让开发者能用起来★✿★。
所以每次开源★✿★,从什么角度开★✿★、设哪些尺寸★✿★,都要全面权衡不同开发者在成本和能力上的不同需求★✿★。比如最近通义万相开源了可以在消费级显卡上跑的版本★✿★,就是为了覆盖更广泛的开发者★✿★,因为很多人不见得有庞大的服务器★✿★。真正的开源★✿★,是让大家方便使用★✿★,积极贡献★✿★。
晚点★✿★:这次 Qwen3 一共开源了 8 个版本★✿★,其中 6 个是稠密模型★✿★,参数从 0.6B 到 32B★✿★,2 个是 MoE(混合专家系统)模型★✿★,一个 30B(激活 3B)★✿★,一个 235B(激活 22B)★✿★。为什么是这个尺寸组合?
周靖人★✿★:其实就是尽量满足从个人到企业的不同开发者的需求★✿★。比如手机端侧可以用 4B★✿★,电脑或汽车端侧推荐 8B★✿★, 32B 是企业最喜欢的尺寸★✿★,能商用大规模部署酷游KU游★✿★。MoE 模型只需要激活很少的参数★✿★,就能获得很强的性能★✿★,可以提供更好的性价比★✿★。
晚点★✿★:想求证一个情况★✿★,有消息称★✿★,在 DeepSeek-R1 发布后★✿★,有 20% 以上的通义千问模型开发者转而使用 DeepSeek 模型★✿★。这种迁移对你们是多大的挑战?Qwen3 能扭转这种现象吗?
周靖人★✿★:我们没有观察到明显的迁移★✿★。而且开发者试用不同模型很正常★✿★,开源社区本来就不能排他★✿★,每个人会根据自身需求做选择★✿★。我们相信★✿★,只要通义千问的模型能力持续进步★✿★,开发者就会愿意过来★✿★。
周靖人★✿★:其实 o1 谈不上定义了新范式★✿★。让模型学会思考★✿★,它不是一个范式★✿★,而是一种能力★✿★。就像多模态也不是范式★✿★,这些都是正常的模型演进★✿★。
o1 里的很多东西★✿★,比如 CoT(思维链)★✿★、强化学习(RL)很早就有★✿★。你甚至可以说 everything is RL★✿★,包括每一次模型迭代★✿★,就是在训新一版模型时加了上一版的反馈★✿★。
周靖人★✿★:有两个主线★✿★:一是模型能力上★✿★,会继续在类人思考和多模态上有提升★✿★;二是模型和底层云计算系统会更深度结合★✿★,能同时提升训练和推理效率★✿★,让模型更好用★✿★、更普及★✿★。
晚点★✿★:这个过程会有什么瓶颈吗?虽然用强化学习做推理模型被认为有很大潜力★✿★,但其基础是一个好的预训练模型★✿★,比如阿里的推理模型 QwQ-32B 是基于 Qwen2.5-32B★✿★,R1 是基于 DeepSeek-v3★✿★。而最近 X.ai 发布的预训练模型 Grok 3★✿★, 用 20 万张卡带来的提升只有 1.2%(在 Chatbot Arena 上比之前的第一名的总分提升)★✿★。当预训练的 Scaling Laws 放缓时★✿★,在此基础上做推理模型的提升还能持续多久?
周靖人★✿★:推理模型确实都依赖于强大的基座模型★✿★,这是共识★✿★。但不能简单说预训练本身的 Scaling Laws 到头了★✿★。
如果只看文本★✿★,数据的上限可以看到★✿★,但多模态数据酷游KU游★✿★,比如大量视觉数据还没被用到★✿★。同时★✿★,预训练和后训练乃至推理的边界正在模糊★✿★,整合这些阶段也有可能带来提升★✿★。在学习方式上酷游KU游★✿★,除了离线训练★✿★,大家也都在探索在线学习★✿★、持续学习等★✿★。
晚点★✿★:你现在既是阿里云 CTO 也是通义实验室负责人★✿★,要同时保证阿里云和通义千问大模型处于领先位置★✿★,两件事的优先级哪个更高?
周靖人★✿★:优先级是一样的★✿★,因为二者拆不开★✿★,模型是云服务的重要部分★✿★;模型要有高性价比★✿★,又需要云体系支持★✿★。两方面要齐头并进★✿★。
周靖人★✿★:这是双向影响的酷游KU游★✿★。如果模型不强★✿★,云的智能化服务就会打折★✿★;而如果模型足够强★✿★、云能力跟不上★✿★,就没法提供高性价比的服务★✿★。
在 AI 时代★✿★,客户要的不是单一的模型或云的能力★✿★,而是强模型 + 低成本 + 高弹性的综合体验★✿★。
反映到技术上★✿★,过去训练和推理是分开考虑的★✿★,但现在训练时就要考虑推理效率★✿★,推理时也要想模型好不好训★✿★、能不能收敛★✿★。这是一个硬币的两面★✿★,要整体协同优化★✿★。
晚点★✿★:DeepSeek 就是基于自己的 GPU 集群做了模型训练和推理的极致 Infra 优化★✿★。它有可能成为第三方 AI 云玩家吗?
云服务要具备极致弹性并保证各种 SLA(Service Level Agreement★✿★,服务级别协议)——比如有些调用需要极低的延迟★✿★,另一些调用需要更高的吞吐和更低的成本★✿★,另外也需要稳定安全——这才是真正的企业级云服务★✿★。不能用着用着就宕机了或突然延时很高★✿★,这样企业无法把重要业务放上去★✿★。
晚点★✿★:当你看到 DeepSeek Infra 开源周最后的总结★✿★,称他们基于自己算力提供 API 服务的成本利润率达到了 545%(换算成毛利为 85%)★✿★,感受是什么?
周靖人★✿★:他们的系统优化的确非常出色★✿★,但这是一种理想化的计算方式★✿★。不用把它当成云的逻辑★✿★,因为真正提供云服务时★✿★,不能在系统繁忙时段选择性地服务客户★✿★,或降低繁忙时段的服务质量★✿★。
完整的 MaaS 服务也不会只有一个模型★✿★,而是兼容多种模型★✿★,所以阿里云一开始就支持 DeepSeek★✿★。云的逻辑是对不同模型都做好性能优化★✿★,把选择权留给客户★✿★。
周靖人★✿★:国内我们是引领者★✿★,国际上的对手很多★✿★,AWS★✿★、Azure★✿★、GCP(Google 云服务) 都值得我们学习★✿★。
晚点★✿★:阿里近期宣布了 3800 亿的 AI 和云计算基础设施投入计划★✿★。不过从基础层投入到应用繁荣有一个周期★✿★,你们会担心应用到时对 AI 云没这么大需求吗?
周靖人★✿★:AI 应用的指数级增长趋势很明显★✿★,过去一年阿里云 MaaS 服务增速很快★✿★,甚至到了供不应求的状态★✿★。
周靖人★✿★:未来供电会是一个挑战★✿★。所以 energy-aware optimization(面向节能的优化)也会成为一个技术方向★✿★,就是找到方法降低每个 token 的能耗★✿★。
周靖人★✿★:比如建设智算中心★✿★,除了根据用户的业务需求综合考虑建设成本和服务延时★✿★,也会考虑附近的自然能源供给★✿★、气候条件等★✿★。这些都是云基础体系的一部分★✿★,我们这么多年积累的这些 Know-How 在 AI 时代越发重要★✿★。
晚点★✿★:头部大公司面对 AI 机会的共同选择是从计算到模型层都做★✿★,从语言★✿★、推理到多模态★✿★,到更前沿的自主学习等技术方向都探索★✿★。但也有人认为 DeepSeek 那样更聚焦的方式更能明确团队重点——比如 DeepSeek 之前也做多模态★✿★,但去年下半年更收束到语言和推理上★✿★。对比这种更聚焦的方式★✿★,阿里多方向布局的过程中怎么解决内部资源分配问题?
周靖人★✿★:科技创新本身就需要多尝试★✿★,但也不是无厘头地什么都试★✿★。我们会先做小规模实验★✿★,验证方向对不对★✿★,再看是否加大投入★✿★。
研发过程本身是一个 pipeline(流水线)★✿★,有的方向是预研★✿★,有的在收尾★✿★,有不同节奏★✿★。今天的 AI 研发是一个从高效实验到训练最后到产出的完整体系★✿★。
周靖人★✿★:你可能想听一个大的 secret★✿★,但其实没什么诀窍和捷径★✿★。一般都是先有假设★✿★,再做小规模实验★✿★,得到初步的证据★✿★,然后是更大规模的实验★✿★。我们内部有科学的评估方法和数据支持★✿★,帮助好的方向脱颖而出★✿★。这是能持续做出成绩的组织的共性★✿★。
周靖人★✿★:一是方向性的判断★✿★,这来自优秀人才的技术素质★✿★;二是科学的验证方法★✿★,要看实验和数据支持★✿★,不是靠一个人拍脑袋★✿★。
晚点★✿★:假如我是一名阿里通义研究人员★✿★,我有一个想法需要用 100 张卡做实验★✿★,我如何能及时★✿★、顺畅地获得想要的资源?
周靖人★✿★:我们有快速实验的平台★✿★,支持用少量资源试错★✿★。一上来就想在超大规模模型上中大奖★✿★,这是不可能的★✿★。
周靖人★✿★:最近大家最关注的还是语言和推理★✿★。我们在多模态 VL(视觉语言模型)★✿★、音频等模型等方向都有很多积累★✿★,都在 Qwen3 上有了明显提升★✿★。
周靖人★✿★:人才流动很正常★✿★。更重要的是团队能坚持一个初心★✿★,一起做出出色的工作★✿★,这是凝聚力的来源★✿★。
同时现在模型研发不仅是模型★✿★、算法层的创新★✿★,而是个长期系统工程★✿★,要有坚定投入的耐心★✿★,今天做★✿★、明天停★✿★,对团队影响很大swag台湾官网★✿★。阿里在通义千问上的投入是非常坚定的★✿★。
晚点★✿★:我们了解到★✿★,2024 年★✿★,通义给所有研究员普涨了一级职级★✿★,并全面加薪★✿★。这是对人才市场变化的回应吗?
晚点★✿★:你 2023 年曾告诉我们★✿★,AI 时代★✿★,科研★✿★、技术★✿★、产品要更紧密结合★✿★,没法像以前那样分那么开★✿★。为什么阿里去年下半年把大模型的 2C 产品从阿里云分到了吴嘉管理的阿里信息智能事业群?
周靖人★✿★:这不是分开★✿★,而是更专业化★✿★。通义专注技术研发★✿★,2C 产品团队专注用户体验和运营★✿★,分工更清晰★✿★,但协作很紧密★✿★。比如夸克也在用最新的通义千问模型★✿★。
周靖人★✿★:我们日常讨论很频繁★✿★。通义的重要目标之一是支持好夸克等产品★✿★,这些产品也能给我们模型研发一些反馈★✿★。
周靖人★✿★:Qwen Chat 不会有太多产品设计★✿★,它更多是让全球开发者能方便体验通义千问的最新模型★✿★。
周靖人★✿★:一是技术的快速发展本身★✿★,二是我们过去的坚持能让我们有一个好的进展★✿★。这对每一个技术工作者来说都是非常幸运的事★✿★。
周靖人★✿★:没有★✿★。为什么焦虑?ChatGPT 刚出来时行业很焦虑★✿★,后来国内模型竞争起来了★✿★,就更理智了★✿★。Sora 也是一样★✿★,我们最近开源的视频生成模型万相 2.1 和 Sora 对比★✿★,外界评价也是互有胜负★✿★。
周靖人★✿★:从每个组织内部看★✿★,今天每一代模型的提升★✿★,都是基于前一代的能力★✿★,优势是逐渐积累★✿★、代代叠加的★✿★。
看起来各领风骚★✿★,是因为科技发展的规律就是你追我赶★✿★,大家相互启发和学习★✿★,这对研究者来说很自然★✿★。所以我也经常和团队说★✿★,不用那么在意一时的流量★✿★,科技发展都是一步步来的★✿★。
04月24日★✿★,油价年内第四次下调 加一箱油少花约7.5元★✿★,十大娱乐老平台★✿★,注册就送88元★✿★,火狐体育官方网站首页★✿★,福利彩票网上投注站
04月24日★✿★,厦门市同安湾★✿★:创新模式 绘就人海和谐画卷★✿★,云顶娱乐客服电线体育在线滚球★✿★,二八杠提现★✿★,打鱼官网下载
04月24日【我是Z世代】专科生热血追逐篮球梦 成“双一流”大学研究生乐动体育网页版登入伟德官方网站澳门网投登录网站威尼斯人网页手机版
04月24日京杭大运河首批新能源智能商品船在山东邹城下水AG线nb网站凯时平台入口在线澳门皇冠游戏app客户端
04月24日马克龙接受总理巴尼耶辞呈 将在未来数日内任命新总理英皇国际APPbg大游视讯app下载乐动体育全站app乐鱼官网入口下载……
04月24日★✿★,《繁花》收官不收劲 上海民众打卡“繁花”展★✿★,M6客户端下载swag台湾官网★✿★,赌博的网页★✿★,12b体育下载★✿★,五张牌炸金花规则大小顺序
04月24日★✿★,山东强化今冬明春防灭火工作 护航经济社会高质量发展★✿★,爱体育网页★✿★,旺球体育官网★✿★,火狐网址是多少★✿★,币游娱乐注册账号
04月24日旅俄大熊猫宝宝“喀秋莎”一周岁 俄网友★✿★:愿健康快乐成长澳门注册领取体验金pg模拟器在线试玩明陞体育备用网址永乐国际永往直前乐在其中手机版
04月24日★✿★,安徽织密耕地保护网 夯实“千亿斤江淮粮仓”根基★✿★,云顶集团首页网址★✿★,奥门新匍京娱乐场网站★✿★,天空之城游戏★✿★,中超买球网站
04月24日★✿★,成都一餐馆捞取垃圾桶内废弃油脂?官方通报★✿★,新濠天地世界杯功率★✿★,od体育首页入口swag台湾官网酷游KU游★✿★,珠都国际逃脱计划真人密室★✿★,千亿PT游戏
04月24日★✿★,陕西全力保障困难群众温暖过冬 提前下达救助补助资金52亿元★✿★,日博体育开户视讯平台★✿★,澳门官方869191★✿★,新东方在线网站★✿★,彩神争霸登录网址
04月24日联合国秘书长★✿★:152名联合国工作人员在加沙丧生★✿★,但救援未停澳门皇冠官网登入玩哪个斗地主能赚钱天博app下载地址查询LETOU乐投
04月24日公共体育服务何以惠及全民?舟山给出“海岛答案”体育平台必发怎么开户im电竞在线开户赌博的手游有哪些
04月24日中国最高法★✿★:强奸未成年人的三名罪犯被依法执行死刑世界杯足球买球平台T6平台官网登录w66网站真钱手游棋牌
韩菱纱云天河初遇★✿★,C罗出席赛前发布会丁薛祥同阿塞拜疆副总理穆斯塔法耶夫会谈捕鱼王官网登录e世博快速登陆欧亿注册开户流程飞五棋牌官方网站版
唯一宝贝★✿★,BLG 1-1 TES中国驻赞比亚使馆提醒中国公民做好霍乱预防天上人间国际真人博彩葡京体育可靠吗皇冠2094登录入口6up扑克之星有假吗
锅盔叔叔走红后每天睡三四个小时★✿★,刘亦菲一部剧带火了5个人德国总理朔尔茨访问乌克兰欧洲杯亚洲官网亚星娱乐场心博天下在线买球九游会国际版
美乘客咬伤空姐被捕 飞机被迫返航★✿★,难寻河北景县糖画艺人绘制“龙”形糖画 感受舌尖上的非遗国际真人人体摄影买球平台网址推荐威廉希尔官方网站必威首页体育官网
全红婵陈芋汐抱抱★✿★,F1中国大奖赛正赛江苏一高校开设特色桑蚕课受热捧东西问|许谋景★✿★:以关公文化为媒★✿★,架中菲人文交流之桥BOB快速注册博天堂电竞188金宝慱官网appage官网官方入口
绍兴一医院眼科套取医保资金2000万★✿★,虞书欣许凯聊天 受伤的却是娜扎澳区青年政协委员魏立新★✿★:为创客架桥 为产业谋路beplay游戏星际官网注册吉利分分彩官方网站188体育在线直播平台
成都AG转会公告★✿★,中国打破美国队40年垄断报告★✿★:美国超6000万人使用大麻 1/3青少年需心理治疗网投美高梅网站可靠吗亚美AG旗舰厅吧九五至尊最新域名是多少信誉最好的20个网投网站九州酷游官网★✿★。KU娛樂城★✿★,九州ku游官网入口★✿★!