← 智讯前沿·项目组

分类: 大语音模型

共有 3 篇文章

CMU推出LEGOGPT!一句话就能生成可搭建的乐高模型

CMU 计算机科学系助理教授朱俊彦团队近期发布创新成果 LEGOGPT,这是一款基于文本输入生成物理稳定可搭建乐高模型的大模型。

该系统通过改造自回归语言模型实现 “下一个积木预测”,将乐高设计转化为序列生成任务,训练中融入包含 4.7 万种乐高结构的 StableText2Lego 数据集,并在推理阶段引入物理感知回滚机制确保结构稳定性。

实验显示,其生成的沙发、书架等 21 类物体模型不仅高度贴合文本描述,还能通过机械臂完成实际组装,在结构完整性与可操作性上显著优于 LLaMAMesh 等基线方法。

目前模型支持 20x20x20 尺寸构建,团队正致力于扩展复杂零件生成能力。该研究为虚拟设计向实体制造转化提供重要参考,相关成果已发表于 arXiv,配套代码与演示平台同步开源。

项目主页:https://avalovelace1.github.io/LegoGPT/
论文地址:https://arxiv.org/pdf/2505.05469

清华团队研发“绝对零”训练法:大模型不靠外部数据,自己出题自己学也能提升推理能力

近日,清华大学、北京通用人工智能研究院与宾夕法尼亚州立大学研究团队联合提出 “绝对零”(Absolute Zero)训练法,无需外部数据即可通过大模型自我博弈解锁推理能力。

该方法让模型同时扮演 “任务生成者” 与 “问题解决者”,将推理任务转化为可执行的代码三元组(程序、输入、输出),

通过溯因、演绎、归纳三类任务的自主生成与求解循环迭代,在代码执行器验证任务有效性后优化模型。

实验显示,经该方法训练的 Qwen-2.5 系列模型在编程任务 HumanEval + 等数据集及数学推理 MATH500 等数据集上准确率显著提升,

且性能提升与模型规模正相关。相关成果引发 Reddit 热议,被认为是大模型自我进化的重要突破。

论文地址:https://arxiv.org/abs/2505.03335

AMD 科研神器上线!多 AI 化身 “虚拟科研团队”,1 小时搞定文献到论文全流程

科研领域正迎来效率与模式的双重革新。AMD 与约翰霍普金斯大学联合推出的 Agent Laboratory,通过构建专业化多智能体协作体系,实现科研流程全自动化。

系统内设置博士生、博士后、机器学习工程师、教授等不同定位的智能体角色,分别承担文献综述、实验设计、代码实现、成果评估等核心任务,模拟真实科研团队的分工协作模式。

其技术架构涵盖文献综述、实验执行、报告撰写三阶段,集成 arXiv 文献检索、Hugging Face 数据处理、mle-solver 代码生成工具及 paper-solver 论文撰写系统,支持从研究构思到论文产出的全流程闭环。

实验数据显示,该系统完成典型科研任务耗时仅 20 分钟至 1 小时,成本低至 2.33 美元,在 MLE-bench 基准测试中斩获 4 枚奖牌,6 项任务性能超越人类中位数水平,且生成报告符合国际学术会议投稿格式标准。

这一创新不仅释放科研人员的创造性潜力,更通过标准化流程提升研究质量,为解决当前学术界论文数量激增与创新不足的矛盾提供技术支撑。

项目地址:https://agentlaboratory.github.io/

论文地址:https://arxiv.org/pdf/2501.04227