首页攻略资讯正文

千问团队四篇论文入选AI顶会！目标是让AI少些冗余表述、更具主动性

发布时间：2026-02-15 作者：admin

AI领域的竞争依旧激烈，而衡量其实力的标准正悄然改变：不再仅仅关注训练算力的大小与模型参数的规模，更着重于AI在复杂应用场景中，是否具备类人的思考与行动能力。

1 月 30 日，千问 C 端应用团队宣布，其四篇人工智能领域研究论文正式入选 2026 国际学习表征会议（ICLR 2026）。

图片来源：阿里

作为机器学习领域公认的三大顶级会议之一，ICLR 的论文入选门槛本就不低，而 2026 年 ICLR 的竞争激烈程度甚至可用「惨烈」二字来描述。本届会议的投稿数量突破 1.9 万篇，再度刷新历史纪录。不过，在投稿量激增的同时，论文的平均评分却有所下降，28.18% 的录用率更是创下了近年来的最低水平。

在严苛的筛选机制下，千问团队连中四元，这不仅印证了其科研成果在理论层面的前瞻性，更凸显出其研究方向与当下行业亟待解决的「可靠性、可用性」需求高度契合。

这次入选的四篇论文，核心逻辑非常一致，都是让 AI 在复杂场景下更加聪明、可靠、实用：

1. 不再是「抽盲盒」：提高扩散模型稳定性

2. 学会「主动问诊」：多轮对话决策的突破

3. AI 自我进化：无需人工标注的检索验证

4. 拒绝「废话文学」：模型价值观对齐的新思路

目前AI生成内容（比如绘图或长文本创作）的效果时常如同抽盲盒一般，输出质量起伏不定。千问团队在扩散语言模型相关研究中，聚焦dLLM掩码训练存在的不稳定性问题，研发出一套具备帕累托最优特性的无偏训练算法。

根据公开信息显示，该算法有效减少了dLLM训练过程中的波动情况，同时提升了图文生成的质量水平。这表明在未来，内容生成类工具将能更好地摆脱“不稳定”的问题，其输出的结果也会更贴合用户的预期。

另一方面，当前的AI助手存在一定的“被动性”，往往是用户问一句才答一句，这样的沟通效率在医疗咨询这类专业领域显得尤为低下。针对医疗多轮对话中涉及的复杂推理任务，千问团队研发出了自适应树策略优化（ATPO）方法，能够使AI依据对话过程中的不确定性，灵活地调整自身的决策路径。

简言之，AI 掌握了「主动发问」的能力。当所需信息不够充分时，它能精准提出问题以获取关键内容；而当线索明确时，又能迅速给出判断。这使得 AI 助手在复杂的咨询场景里，如同经验老道的专业人士一般，只询问关键问题，有效规避了无效对话。

另外，千问团队构建了「提问—解答—验证」的自博弈强化学习框架，使AI无需额外人工标注，就能完成自我核验与进化。在学习辅助、研究支持这类知识密集型场景里，AI可以自主核查资料，可靠性得到进一步提升。

团队还引入了信息论框架下的偏见消除手段，以此引导奖励模型聚焦于真正与人类偏好关联紧密的信号。以往部分模型为了契合人类偏好，往往会生成冗长却缺乏实质内容的套话，而该方法能够有效降低这类冗长、格式化且信息密度不高的输出，促使AI更专注于对用户有实际帮助的核心内容，从而避免“废话文学”的出现。