Name: 人形机器人行业全面解析：万亿风口将至！你该如何布局？（上集）
Uploaded: 2025-07-07T01:32:19.912Z
Description: 23年，AI大语言模型的横空出世成就了英伟达，股价同样翻了10倍！那么下一个颠覆性机会是什么呢？又会是哪一家公司站上新一代的风口呢？没错，咱今天要深度分析的这个行业，就是人形机器人行业。
人形机器人行业全面解析：万亿风口将至！你该如何布局？（上集）
2025-07-06
播放量 13.6k
23年，AI大语言模型的横空出世成就了英伟达，股价同样翻了10倍！那么下一个颠覆性机会是什么呢？又会是哪一家公司站上新一代的风口呢？没错，咱今天要深度分析的这个行业，就是人形机器人行业。
开通服务即可查看评论～
文字稿
20年，电动车的异军突起成就了特斯拉，股价一年内翻了10倍！23年，AI大语言模型的横空出世成就了英伟达，股价同样翻了10倍！那么下一个颠覆性机会是什么呢？又会是哪一家公司站上新一代的风口呢？今天美投君就来给各位看官介绍这样一个行业。
没错，咱今天要深度分析的这个行业，就是人形机器人行业。去年9月，特斯拉robotaxi大会上，新版Optimus机器人调酒蹦迪惊艳全场。25年中国央视春晚，宇树科技的一群机器人，穿着花棉袄扭秧歌也一度火遍全网。似乎曾经只存在于科幻电影中的场景，现在正逐渐走入了现实。
英伟达创始人黄仁勋说，人形机器人将成为AI外，最具爆发潜力的市场。特斯拉总裁马斯克表示，到了2040年，人形机器人的数量就将超过人类！但你还千万别以为这是多年后才会发生的事情。根据投行美银预计，2025年，也就是今年，人形机器人的出货量就将达到1.8万台。而到了2030年将会达到100万台，年复合增长率90%，增长完全不逊于AI。就在这两年，我们不仅看到了几乎所有大科技纷纷入局人形机器人，也看到了像Figure AI，智元机器人等初创公司如雨后春笋般蓬勃的发展。
现在的人形机器人行业，俨然有了一种当年AI爆发前夜的感觉。那么人形机器人是否真的会成为下一个AI呢？还是会像元宇宙那样，成为昙花一现的资本泡沫呢？我们普通投资者又该如何参与这场科技革命呢？接下来，就让美投君带各位看官一起，来探究人形机器人的奥秘。这期的调研前前后后花了我两个多月的时间，内容非常硬核，相信你看完一定会非常有收获！
如果你拉长视野来看待人形机器人，你会发现他的爆发是注定的。因为它相比于人类具有着不可替代的优势。这第一就是效率高，一个机器人不仅可以全天候的工作，而且成本还要更低。这是每天要休息，动不动还要要求涨薪的人类无法比拟的。第二就是他可以从事人类从事不了的工作，比如那些在危险或着极端环境中作业的工作。所以从商业的角度来看，人形机器人注定将会取代绝大部分的人类劳动力。
而从人类自身的需求来看也是如此。在马斯洛的需求层次理论中，人类的需求分成三个层次：吃住安全等基础层面；情感归属，尊重认同等中等追求；以及最终的自我实现。需求不断向上求索，是人类千百年来永恒不变的一个大趋势。而机器人刚好可以满足吃住安全等基础层的需求，那么人类就可以腾出更多的时间，去追求那些更高层次的目标。比如学习，创造，甚至改变世界。如果你拉长视野来看，这种亘古不变的人类追求，正是促成机器人需求增长的一种确定性。
不过，光有这些长期趋势还不够，毕竟一个10年后才会爆发的行业，现在来说是没有投资价值的。而实际上，人形机器人行业在短期内，也有着明确的动能来促成他的爆发。根据投行美银的报告，2025年到2035年之间全球人形机器人出货量，将从1.8万台增长到1000万台，复合增长率高达88%。而投行大摩则预测，2030年美国人形机器人市场的规模，就将达到40亿美元，而中国更高，则将达到120亿美元。
之所以投行预计，未来5-10年能够看到明确的机器人行业的增长，并非是依靠某个企业的单点突破，而是全球范围内产业，技术，与社会结构变化共同作用的结果，而这也让人形机器人的爆发，成为了一种必然的趋势。
这首先就是成本结构的改善。过去的人形机器人难以落地，一个关键障碍就是贵。尤其是核心部件，比如高精度电机、减速器、力控传感器等等，不仅价格贵、技术壁垒高，而且整机组装的工艺也极其复杂，所以他注定只能停留在实验室阶段。不过这种情况现在正在发生根本性的变化。像2005年波士顿动力的机器狗，单价需要200万美元，但到了2024年中国宇树科技的人形机器人的单价，就只需要4万美元了。而且这个趋势还在延续。根据Coatue发布的机器人产业报告，到2026~2027年，人形机器人的年使用成本，将低于人类的平均薪酬。一旦成本交叉出现，对全球劳动力市场的重构，将会是颠覆性的。这就像是当年AI的爆发，也有很大一部分原因要得益于算力成本的下降，逻辑是完全相同的。
第二，技术上的进步也解锁了人形机器人的能力边界。特别是在运动控制、视觉感知、AI算法、大模型能力等关键领域，过去五年取得了跨越式的突破。其中最为关键的就是大模型上的进步。ChatGPT、DeepSeek和VLA模型的出现，大幅推动了机器人“大脑”的发展。这让机器人真正具备了能看懂，并且能应对的能力。
第三，是应用场景的不断扩展。自2023年以来，越来越多的公司推出了他们新的机器人产品，去解决实际中的商业问题，比如仓库搬运、工厂物流、分拣、巡检等。而除了这些已有场景，机器人还开始进入了更多新的领域，比如教育陪护、商业服务等等，未来甚至可能走进千家万户的生活。没有商用场景的机器人只能是实验室产品，而现在随着实际应用场景的拓展，具备商业价值的机器人，才有了真正爆发的可能。
最后一点，是人口结构的变化。在中美等主要经济体中，人口老龄化趋势非常明显，年轻劳动力越来越紧缺，这已经对制造业、服务业等多个领域造成了压力。在这样的现实背景下，机械劳动力就成为了重要的替代方案。他不仅是为了降本提效，更是为了解决没有年轻劳动力的这个结构性问题。
所以你看，人形机器人行业已经不再是镜花水月，而是一个已经蓄势待发的大趋势。这个行业就像十几年前的智能手机一样，正在跨过从0到1的临界点，迈向1到100的这个加速阶段。而推动这一切的，不只是技术，更是现实世界中，正在悄然变化的刚性需求。
听到这儿，你是否觉得应该立马开始布局人形机器人了呢？别急。作为投资者，我们不仅得知道行业的上限，还必须得了解行业的问题，才能够真正把握住机会。事实上，该行业现在仍存在一些瓶颈有待突破。
人形机器人整个产业链可以分为上中下游三大部分。上游是核心部件和软件系统的供应商。比如电机，传感器等硬件设备，以及操作系统，大模型等软件配套。这些构成了人形机器人的“身体”和“大脑”。中游则是整机制造商，负责将上游的零部件整合成完整的机器人产品。下游则是不同的应用场景和用户。比如工厂，商业服务部门等等。
现阶段，上中下游这三部分都存在这各自的一些瓶颈。比如下游的应用场景，存在隐私安全，伦理等方面的挑战。中游的整机制造也存在成本问题。但对于我们投资者而言，这些都不是最重要的，现阶段人形机器人行业最为主要的瓶颈，就出在了上游的“大脑”和“身体”这两大部分。
我们先说这“大脑”。这是人形机器人最核心的一部分。真正的智能机器人，他绝对不能靠着预设的程序来执行任务，而是要具备自己学习，自己判断的能力。而要想达到这一点，最为关键的一项技术，就是机器人的视觉语言模型。
机器人不像人类，有着几十年的生活经验，也不能靠身体去体验世界。他们学习，最重要的方式，就是靠视觉，也就是靠看。视觉语言模型就是让机器人具备这个“看“的能力，当然了，这里的看指的是广义上的“看”。机器人先通过传感器去收集图像、声音、以及方向变化等各种信息，再由大脑去快速处理，理解当前的环境和任务需求，做出决策。最后，这些决策被转化为具体的控制指令，传递给机器人的电机和执行器，完成相应的动作。
似乎听起来也并不算复杂，但实际的训练中，难度远比想象中要高。早在上世纪80年代，机器人专家Hans Moravec就说过，对人来说比较难的事，比如数学、编程，机器都很擅长；但那些人类天生就会、觉得很最简单的事，比如走路、抓东西、顺势做出反应，反而是机器最难做到的。
Meta的首席AI科学家，Yann LeCun在2025年英伟达GTC大会上曾提到，一个小孩每秒能通过视觉吸收2MB的数据，到了四岁时，就相当于是处理了30万亿个token，差不多就是今天训练AI大模型，所用的整套互联网文本的数据规模，而这正是这种直觉的由来。可见要想获取这种直觉，是需要大量的数据积累的。然而问题就在于，现在的机器人训练要想获取如此规模的数据，实在是太难了。
我们可以用自动驾驶领域做个类比。自动驾驶也是靠视觉语言模型实现的。这是现如今最有可能落地的，智能应用场景。然而这个场景，相比于人形机器人来说，还是太简单了。为什么这么说呢？
其实驾驶任务无非就是直线，拐弯，看信号灯，等行人等几个场景。就算是算上那些corner cases，在公路上的场景也非常有限。而人形机器人不同，要想让它像人一样操作东西，搬运物体，识别情绪，甚至和人进行对话，还得在不同场景下去完成这些任务，所需要的数据量是天文级别的，而且不仅量大，对质量的要求也非常高。
机器人学习的数据，必须要来自于真实的人类操作。他不能靠预设的程序，而是要先看人类是怎么操做的，然后进行实际的模仿。比如说，要让机器人捡起一只鞋子，并且能够在平地，楼梯，下坡上都能自然流畅的捡起这只d鞋子，那么就需要我们提供大量的，高质量的人类动作数据来做训练。从走到鞋子旁边、弯腰、抓取、再到起身，每个环节都需要精准记录。而要想得到这样的数据其实并不容易。
那现在这些数据都是怎么得到呢？目前比较有效的方式就两个：一个是动作捕捉技术。在人体关键部位，贴上反光点或者惯性传感器，然后通过摄像头或者传感器，来捕捉人的动作轨迹。而另一个则是VR远程操做技术。操作者戴上VR头盔和手套，通过远程的方式来控制机器人，同时把自己的动作实时同步到机器人身上，这些数据也可以反过来，成为机器人的学习素材。可想而知，无论是那种方式，要想获得高质量的数据并不容易。而且我们还需要天量的这种级别的数据，难度更是可想而知。
像优必选的Walker X机器人，为了训练一个简单的家居场景，就获取了超过10万小时的真人交互数据。小鹏的董事长也说，人形机器人的数据需求，是自动驾驶的10倍以上。目前训练人形机器人的视觉模型，没有什么别的办法，就只能一个一个场景的攻克。而不同的场景，对于数据量的要求差别其实很大。像抓个固定形状的东西，可能就只要一两千条数据；做个中等复杂的动作，比如餐厅端菜上菜，可能得准备五万条数据；而像组装、分拣这样的复杂任务，可能就需要十万条以上的数据，才能够训练出效果。
然而问题是，现在机器人的训练数据量还远远不够。你知道，要训练出像ChatGPT这样的大语言模型需要多少的数据吗？现在的文本领域已经有了15万亿个token，图像也有60亿组图文对，而视频模态也积累了26亿条的音视频数据。那机器人的视频数据有多少呢？但现存的数据量就只有240万个场景，差距非常大。而数据，恰恰是人形机器人智能突破，关键中的关键。
所以你看，不管是AI模型的复杂度，还是训练所需的数据量，人形机器人大脑这一层，目前都还有巨大的瓶颈有待突破。
说完大脑的限制，我们再来看看，人形机器人身体这部分的技术瓶颈。
首先就是机械的自由度现在还远远不够。自由度是指一个机械系统，能够独立运动的方向或着方式的数量。比如人的手指每个关节都可以弯曲或着伸展，每个这样的动作就算是一个自由度。人的手大约总共有27个自由度。而现在市面上最为灵活的机械手，特斯拉的Optimus Gen3，也不过就只有22个自由度，而多数的机械手目前的自由度，都是在10到20之间。别小看这点自由度差距。第一，它会导致机器人有很多动作无法完成。第二，自由度低还会让机器人的控制能力变差，因为无法精准的模仿人类的动作，像控制用力和控制角度这些问题，都很容易出错。那你说多装几个关节能不能解决呢？并没有这么简单。这背后涉及复杂的机械设计，还有材料学，以及算法协调控制等各种技术。要想提升自由度，仍需要多学科的技术突破才能够完成。
第二点制约是电池的续航。现在大多数人形机器人的续航，大概就只有两个小时。这种续航几乎实现不了什么商用价值，应用场景也会非常有限。如果要想让机器人续航更久，要么让机器人更省电，比如设计出更轻巧的机器人；要么就提升电池的能量密度，比如使用固态电池。但问题是，固态电池成本太高，技术也还不成熟，短期内难以进行商用。
所以你看，在上游的产业链中，无论是机器人的大脑还是身体，目前都仍存在不少的技术瓶颈有待突破。对于我们投资者而言，有技术瓶颈其实是好事。因为如果瓶颈被突破了，那么最强的一波上涨往往就已经结束了，反而是在瓶颈期，我们能够埋伏到那些，真正性感的投资机会。谁最先突破瓶颈，谁就最有可能获得颠覆性的投资回报。现在我们了解了技术瓶颈，也就有了寻找投资机会的方向了。而至于这部分，我们后面还会讲到。
说到这儿你会发现，虽然人形机器人注定会迎来爆发，而且短期内就有足够强的动能，促使这个爆发出现。但同一时间，技术的瓶颈，又在制约着这个行业的发展。那么对于咱投资者而言，我们到底应该如何去看待行业中的机会呢？回答这个问题的关键，就在商业化上！
一提到人形机器人，我相信很多人都会想到做家务，照顾老人这些应用场景。然而其实这些场景，都是最为复杂的应用场景，短期内还基本都很难实现。不过虽然说技术有瓶颈，但是解决瓶颈的难度，也是会随着应用场景的不同而发生变化的。所以说作为一名投资者，你需要清楚人形机器人的商业化路径，究竟是怎样的？他会最先从哪里开始突破？哪里又最容易出现投资机会呢？
我们还是拿自动驾驶类比。自动驾驶技术也并非是一开始就落地到公路上，而是先在实验室里进行研发，然后在一些封闭场地里落地。从2015年开始，自动驾驶逐步进入一些半封闭环境试运营，比如一些高速的干线。再到2018年Waymo正式落地了，有区域限制的无人驾驶出租车服务。直到2025年，特斯拉才开始落地所谓“通用”的，纯视觉自动驾驶出租车服务。整个过程从易到难，分阶段进行。
而对于人形机器人也是如此，他的商业化路径也遵循着类似的规律。一开始肯定是在实验室里进行探索，然后走进一些结构简单，任务标准化的应用场景，而且也可能需要一些人类的配合。等智能水平进一步提升后，才会走向那些通用场景，独立去完成更多样的任务。
那么现阶段人形机器人的商业化，到了什么地步了呢？我们不妨从中美这两个最大的人形机器人市场的现状中，去寻找答案。
美国的人形机器人厂商发展得较早，早在2013年，波士顿动力就推出了他第一代人形机器人。现如今美国厂商大多都已经跨过了实验室这个阶段，他们正在和一些制造业客户进行深度的合作。像Figure AI与宝马的合作，波士顿动力与现代的合作，都已经正式落地了。他们的机器人，已经开始解决实际商用场景的问题了。而特斯拉也准备在2025年年底，开始在自家工厂里，部署上千台的Optimus机器人，去辅助他的汽车制造。
而中国的机器人厂商虽然研发开始的较晚，但是在商业化上速度则更快。他们选择先从高校，研究机构，以及制造业厂商切入，先把产品推向市场，再在实际场景中，去加速产品的研发。比如同济大学，清华大学，重庆大学，华南理工，都纷纷采购了机器人用于科研和学生培训。此外，优必选的机器人，也已经进入到了比亚迪等大型企业的工厂，开始参与实际的制造业任务。
你会发现，中美机器人厂商几乎不约而同的选择了制造业，尤其是汽车制造业，作为了商业化的切入点，为什么呢？因为这个场景成熟、需求明确，而且对机器人的操作精度要求较低，非常适合机器人的早期商业化使用。
一般来说，生产一辆车要经历四个步骤：冲压、焊接、喷漆、装配。前面三个步骤基本都被机器取代了，几乎没有啥人干活了。但到了装配环节，人就变多了，工作也更杂，这是传统自动化机械无法胜任的一个环节，而他正是人形机器人现在主要试点的领域。而类似的环节，在整个制造业中其实还有很多。目前全球制造业的自动化率只有20%左右，还有大量的岗位要依靠人工。而这里，就会成为人形机器人商业化，最好的一个应用土壤。
根据中国投行中信证券的预估，2028年，全球制造业的机器人需求量，将超过10万台；到了2030年，全球年需求量将突破50万台；而到了2035年，机器人单价有望降至1.3万美元，年出货量将达到300万台，整个市场规模，将会达到400亿美元。
人形机器人在制造业有了一定进展后，第二步才会向服务业开始商业化。这个阶段对于语言和视觉大模型的要求就更高了，因为他必须要学会跟人类进行交互。比如在医疗领域，他可以检测老人是否摔倒，提醒吃药，甚至进行情感的陪伴。在教育场景中，他可以当助教，陪孩子学习。在便利店，超市，健身房等24小时营业的地方，他可以负责收银，补货，以及简单的服务等。在这些场景中，人类和机器人会各司其职。人类处理突发事件，或者灵活性较强的任务。而结构化，重复性的工作则会交给机器人来完成。根据中信证券的估算，到2035年，全球服务业中人形机器人的规模，将达到300亿美元。
最后的商业化阶段才是真正进入到广大家庭中。他对机器人的“大脑”和“身体”的要求都是最高的。但长远来看，这一天一定会到来。届时你能够期待它完成大部分的家务，比如做饭，打扫，照顾老人和小孩，甚至成为家庭管家，和人类有更加亲密的关系。按照马斯克的预计，2040年，机器人的数量就将超过人类，也就是说每个人都能有一个自己的机器人助手。当然了这个时间点不重要，这个愿景理论上是一定会实现的。
所以你看，人形机器人的商业化他不会是一蹴而就的。随着机器人的能力不断提升，成本的不断降低，他会逐步的改变我们的工作和生活方式。从实验室，到工厂，再到服务业，直到走入千家万户。
现在，我们了解了人形机器人行业的商业化现状，你会发现，如今人形机器人行业的现状，其实就非常像当年新能源汽车，爆发前夜的样子。
新能源汽车早期就基本只有特斯拉一家，孤独的进行实验室的研发，而到了19年左右，特斯拉的技术实现突破，产能得到了提升，于是销量一路走高，并在19年三季度首次实现了盈利。在商业化得到了初步的验证后，中美两国一众电动车品牌相继面世，传统车企也都纷纷入局。一年之后，整个电动车行业才迎来了真正的爆发。
反观人形机器人行业，最早在2013年，波士顿动力就有了人形机器人的样子。但直到2022年，特斯拉发布了Optimus机器人，才让“人形机器人”这个概念真正走进大众视野。现在人形机器人已经基本跨过了实验室阶段，开始步入到了初步的商业化尝试。我们也已经看到Figure AI，智元机器人等初创公司相继面世。比亚迪，塞力斯等传统车企开始涉足。微软，华为等科技企业，也纷纷都开始布局。
可见2025年，俨然已经成为了人形机器人，蓄势待发的一年。许多产品真正走进了工厂，开始实际的工作。类比电动车的发展路径，如今的人形机器人行业，正处在大小玩家纷纷入局，逐步进行产品落地，从0到1突破的关键爆发前夕。我不确定何时行业能够真正迎来质变，但我相信这个节点应该已经不远了，而且一旦发生，必将带来颠覆性的投资机会。而现在或许正是我们，开始关注这个行业最好的时候。