如影随形

影子是一个会撒谎的精灵,它在虚空中流浪和等待被发现之间;在存在与不存在之间....

您现在的位置是:主页 > AG真人 >

Chen Yuanpei:智力本质上需要TOC

发布时间:2025-08-10 11:12编辑:365bet体育浏览(97)

    2025年世界机器人会议于8月8日至12日在北京经济和技术发展区举行。 以下是演讲的转录。 今天,我与您分享了一些不同的事情,并告诉您有关业务运营领域的发展历史和未来合作。 我们认为,在第一个和第一个本体论中,化身的身体领域主要由四个方面组成。您可以训练算法以制作方案,将收集哪些数据以及数据。 一个非常重要的是,该算法可以定义硬件。因此,我们要做的是一个循环过程。根据算法,您可以定义所需的智能手及其指标的外观。 对于算法,我们通常将它们分为四个级别。第一级是非标准自动化。简历和其他方法允许相对固定的操作,但派生化相对有限,并改变了其他方案和一些问题。 这第二级是,纯粹是馈送数据的结束算法,并且可以执行相对智能和广义操作,但是无法解决的是,很长的任务确实很困难,第二个是成功率的问题。本质上,模仿学习是关于生成数据分布,我们不知道该任务的特定目标是什么。因此,在Lingchu定位开始时创建的L3是长距离和敏捷性。在这里,我们认为VLA技术和强化学习技术更为重要。 VLA被划分为末端 - 末端体系结构已成为一个相对传统的共识。当时,我们提出了一个大脑和小脑的末端结构。但是,我认为有一个尚未彻底解释的观点。这是完成长期任务并增加强化学习的方法。这两个是我们的专业。 这是一个莱因福我很快完成的学习培训任务。许多朋友在许多演示中问我,实际上,通过模仿学习以及加强学习时创造的东西创造了什么。很难知道您是否成功。但是我认为这是一个更好的例子。模仿学习数据的收集很困难,应通过加强学习培训来实现。这也是第一点。 整个系统由两个敏捷的手和两个手臂组成。我们还使用多种代理和联合培训的几种强化学习。模拟被推广到对象的几个对象。一般效果也是对象的各种对象,包括启动的位置,但它的关系很快就可以捕获。这也反映了强化学习对高动态和敏捷任务的好处。 之后,我完成了一项任务,涉及将长距离任务与双手联系起来。人工任务是按钮敏捷的敏捷。例如,诸如儿童堆叠之类的任务实际上包括八种不同的技能。为什么选择最聪明的手?我们不想执行一个任务,因此我们正在考虑使用机器人执行相对较长任务的方法,例如Lego中的LEGO,包括搜索,拍摄,插入等。在后阶段,有许多手动操作,例如合格的手动任务,例如征税和弹钢琴。 这些任务中的大多数仅涉及仅使用一个任务。许多人认为连接两个任务更容易。单独训练一项任务是足够的,但是有更好的例子,例如从桌子上收集锤子并低头看。它可以单独训练,但实际上,连接程度相对较低。我看到我先前捕获任务的任务的最终状态可能是蓝色圆圈很大,但是以下任务是小圆圈将成功。因此,此差距连接两个链接,但不一定是是的,所以我们提出了一个双向优化框架。 简而言之,我们观察整个过程,并使用先前的参考来使用后续结果的成功或失败。此过程更适合以前的任务,参与强化学习和思考如何: 除此之外,还将此框架应用于构建乐高的任务。他们之间有四个技能,寻找乐高电池,然后抬头抓住和插入。所有这些都是我们在模拟中使用加固学习对我们培训的,并使用一组方法将它们团结起来。这有几个广义屏幕,可以以不同的方式将其推广到不同对象。 训练后,您可以内部搜索,然后插入插件以插入它。这将带来更好的结果,例如已插入并插入的多个对象。 这是我们的新系统,它的最终一般效果,也相对强大。例如,如果这将是汽车用相同的真实乐高电池进行投资,插入并告诉它,然后将其插入并插入。此外,如果中断它,您可以很快恢复。所有系统专门促进培训的强化学习,然后进入真实的机器。如果您需要查看更多视频,则可以访问我们的网站。 从单个对象中的智能丰富操作到连接多个对象的长距离任务。以下是脑的上部。这就是我们完成VLA的方式。 VLA也是层次结构。最初,有更高级别的规划人员和控制器最终根据任务控制它们。有一个相对独特的点,上层和下层主要通过设计的动作令牌连接。具体而言,上层可以通过自己的床确定哪些任务更适合下层。就像刚刚出现的狮子座效应一样,为UNDE选择适当的控制隆起层。这使得长距离任务连接非常柔软。之后,成功率将很高。 这里的中央技术是上部的培训。它还训练一些大型型号,例如DeepSeekr1。我们所有人都可以在模拟中完成。例如,Majong游戏的所有最新演示均经过模拟和验证之后的训练,请移至真实的机器。一些Reishay Machine数据为此,但将更少使用。 在VLA的情况下,我们进行了这样的评论,因为我们认为没有什么比我们显示的联系更好的了。 VLA越来越受欢迎,所有人都开始意识到,如果VLA想要执行相对常见的长距离任务,那么它们是必不可少的。还有一些国际高级演示,例如Google。 因此,我们与北京大学Lingchu联合研究所共同对VLA进行了全面的审查。在我们的观点中n,建立VLA系统时最重要的是它是否极端。如果它不是极端的,那么上层和下层之间的联系是什么,它实际上对VLA的性能产生了重大影响。 我们还提供了一个相对一般的VLA定义,该定义使用了至少基本的模型,在相对较大的监狱模型中,我们将其定义为VLA。 为什么要使用VLAN?从更大的模型角度看VLA非常重要,因为从更大的模型的角度到更具体现的智能,必须有一些实体影响世界。从机器人的角度来看,这就像我所说的有关执行任务,执行多个任务,连接多个任务的事情。这也需要非常强大的感官技能,因此需要VLA在两个领域更为重要的原因。 这也是开发表和类别的一部分。如果您有兴趣,可以看到我们的评论。 从我们的角度来看VLA的田径点是我们连接上层和下层的方式。它划分了大约多种类型。例如,其代码具有一些VLA。上层可以生成一些代码,然后使用一些端到 - 端线来调用并执行thecode。而且仍然有一些通过潜力连接的。它还提供了一个更好的定义,并汇集了市场上的所有文档,以更好地了解该领域。这是几个令牌的可视化。这也是当今一些VLA的开发历史表,还有一些食物。如果您有兴趣,也可以详细阅读。 接下来,让我们谈谈未来必须开发智能操作领域的领域。我们认为,模型中最重要的数据分为四层:Internet数据,仿真数据,真实数据和真实的机器数据。右侧是野手套的电流。 为什么对我们定义真实数据有效?我们已经确定了这可能存在一个可能的实际差距,因此可以识别ITFIX的产品的真实机器收集的数据有效,但是我们更喜欢收集分包合同的方法,因为不可能将所有产品,所有元素,所有对象,所有对象,所有对象以及所有操作都移至数据挖掘工厂,因此数据不够。 例如,一些家庭主妇可以戴上手套和相机,通常不会影响他们的工作并记录一天的操作。这与Internet数据确实不同,因为Internet数据相对有问题。例如,一只小狗正在奔跑。有些人得到洗衣机的衣服。这就是为什么您需要手套。 第二点是触摸非常重要。我们很早就意识到这种触摸实际上是一个非常重要的一点。人的手骨头与机器人手骨头不同,包括机器人骨头,因此,如果无法触摸它们,一个非常重要的一点是Concret的差距E可以根据触摸信息进行连接。 之后,有一种独特的增强学习方法,可以将其用于有效的真实机器数据,并可以引入它。 这也是2024年的一项研究。这是当时将人员数据传输到机器人技术并运作良好的最快方法。当时我们有非常重要的想法。学习纯强化是相对困难的。因为即使您真的受过训练,移动也不是很好,因此很难探索。那时,我们当时有许多人才数据,人类数据确实非常多样化,那么机器人培训的人力资源数据如何?你做了吗? 在此之前,还有其他一些研究可以积累某些互联网视频的动作,使用人类数据并在现实世界中进行。但是由于我刚才说,这些数据的质量是如此之低,以至于它可以用选择和放置而完成。 我将包括我已经输入的长距离任务,但是如果您真的想在不同的情况下概括,则可以训练一定程度的概括,但是数据仍然缺失。这就是为什么纯RL还不够的原因,必须输入手动数据。 因此,我试图使用两只手的两组合格的操纵数据来查看手机,其中包括开放机器人控制的柜子。我们认为,我们认为,在模拟机器人数据中没有实现差距,我们认为,质量高于人力资源的质量,但是由于各种问题,很难完全实现。它允许收集更多人类数据,从而提高规模能力。但是,由于他们与真正的机器人之间的差距,人们无法使用它的原因很多。 因此,对我们来说非常重要的是,可以通过增加学习来优化机器人手动数据。这是我们的框架。例如,有高级计划人员和低控制器。输入的高级计划者是对象移动的方式。生成的模型可以生成双手和玩偶的大概轨迹。 在最低水平上,增强学习用于训练真正的敏捷手动轨迹。在这里,这个框架的非常美丽的事情是,它模拟了每个人都忽略RL的问题,即每个任务都需要一个有意义的功能,但是这样,每个任务都可能是一回事。 RL的任务是操纵此对象,以便对象可以填写此轨迹。因此,所有奖励功能都是公式。这是物体和客观姿势之间的差异。然后,在这种情况下,一些非常不同的可以训练操作并将某些手数据传输到机器人。 推论是首先使用上层计划器来提供更大的模型或输出对象的移动方式。例如,饮用水意味着您的嘴里喝水。我们这一代人的莫雷尔ORM主要来自人类数据的洋娃娃对的大概轨迹,并且通过强化学习对碰撞操纵的仔细参与进行了训练。 所有这些都经过反向训练,这也是我们的效果。真正的机器有一个额外的手臂和手,具有超过60度的自由度。事实证明,该操作与人类非常一致,然后包括一个用双手抬起物体的动作。所有这些都是倍数。 这也是我们聪明的原因。人数据的使用极为重要。 硬件很便宜。我们发现,最终的情报仍然需要TOC,并且必须增加C端的成本才能继续。至于如何开始数量,您必须拥有一个非常强大的预训练模型,该模型可以很快适应任何情况。现在,这返回到闭路电路。因为难以实现模仿方法,因此应该使用人类数据,因为人类的手和技能是Rela很关闭。因此,差距很小,这也是您需要做技能的相反原因。这是我们的最后一个概念。 关于场景,将来将举行强迫症。由于局限性,我们首先从物流和TOB工厂开始,然后慢慢积累数据和模型。新场景将更快,并将逐渐发展为细分,直到它改善交叉信号的代子化。 这是我今天的演讲,谢谢大家! 官方NINA Finance帐户 扫描QR码以24小时遵循财务信息和财务视频,并获得更多粉丝的好处(Sinafinance)