### 1.课程内容
1.学习使用机器人的视觉理解功能
2.学习新出现的关键源码
### 2.准备工作
#### 2.1 内容说明
示例使用multimodel : "qwen-vl-max-2025-04-08"
国际版使用model："qwen/qwen2.5-vl-72b-instruct:free","qwen-vl-latest"
⚠️ 同样的测试指令，大模型回复的内容不会完全相同，和教程中截图会略有差异
⚡️ 建议先体验前面的视觉案例，此案例是在单例的基础上增加了语音功能，功能上大部分一致，不再对程序的实现过程，代码调试，效果详细赘述！！！
### 3. 运行案例
#### 3.1 启动程序
打开终端输入命令：
```
ros2 launch largemodel largemodel_control.launch.py
```

![](/media/202512/d9d15778b614454e983fa0f4008af57b5682.png)
初始化完成后会显示如下内容

![](/media/202512/fbfe93a17285454a8a8e5860f0cab66f3410.png)
#### 3.2 测试案例
这里给出参考的测试案例，用户可自行编撰自己的对话指令

开始xx追踪
颜色/人脸/物体/机器码/二维码/手势识别/人体姿态
颜色追踪，颜色包括：red红色、green绿色、blue蓝色、yellow黄色，(需要事先按照AI大模型准备工作教程进行颜色标定)
物体追踪，
### 3.2.1 案例1:"开始追踪红色"
首先使用"你好小亚"唤醒机器人，机器人回应："我在，请吩咐"，机器人应答后蜂鸣器短暂（beep—）响后，用户可以进行讲话，机器人会进行动态声音检测，如果有声音活动则打印1,无声音活动会打印-,当说话结束后会进行尾音检测，静音超过450ms则停止录音。
动态声音检测（VAD）如下图所示：

![](/media/202512/56b551f1379645db9e61647b3c1c46663417.png)
机器人会先与用户进行对方回复用户，然后按照指令动作，同时终端打印信息如下：

![](/media/202512/eab066c7d8f6401490dc55c1e2c5e9835469.png)
VNC画面中会打开**frame**标题的窗口显示当前机器人视角的图像，

![](/media/202512/a530e56651c2463b837ae0f7f73c98be5435.png)
如果画面中没有需要追踪的目标，程序会计时10s，终端打印5秒倒数，进程自动结束，视为任务已经完成，

![](/media/202512/6af457e61cf04c01ad77072a4e26edfa8116.png)
需要手动结束任务时，语音"你好小亚"唤醒机器人，机器人回应："我在，请吩咐"，此时会打断该程序，程序进程自动杀死，可以进行下一个指令，

![](/media/202512/6a83f7971dd242ed9076caa55430f85b2695.png)
🔧结束追踪时，如果出现以下警告，是正常现象，是子进程杀死的提示，不影响程序正常运行

```
[action_service_usb-13] Failed to publish log message to rosout: publisher's context is invalid, at ./src/rcl/publisher.c:389
[action_service_usb-13] Exception in thread Thread-284 (execute):
[action_service_usb-13] rclpy._rclpy_pybind11.RCLError: Failed to publish: publisher's context is invalid, at ./src/rcl/publisher.c:389
```
此时机器人又再次进入自由对话状态，但所有的对话历史会被一直保留。此时可以再此唤醒小亚，“结束当前任务”，让机器人结束当前的任务周期，清理掉对话历史，开启新的任务周期。

![](/media/202512/f385d2755d274b00a3542df2e97237483137.png)

### 3.2.2 案例2"请追踪我手中的物体"
⚠️ 案例追踪物体获取到的坐标，完全由AI大模型的推理得来，所以建议使用日期较新的模型，效果会更佳！

与案例1测试相同，首先使用"你好小亚"唤醒机器人，机器人应答后蜂鸣器短暂（beep—）响后，用户可以进行讲话，讲话完成后，机器人回复用户并按照指令进行运动。请手拿任意一个物体放到视野当中，持续到出现追踪框。

![](/media/202512/57c2a8bfade24f38a9c070e8175db8c29117.png)
VNC画面中会打开frame标题的窗口显示当前机器人视角的图像，

![](/media/202512/8af2d83040774dcbbd4ffb3656ef1bbe8214.png)
缓慢移动物体，舵机云台会跟着动，如果画面中没有需要追踪的目标，程序会计时10s，终端打印5秒倒数，进程自动结束，视为任务已经完成

![](/media/202512/5905b35db8ae483c85a468d36d648ded1480.png)
需要手动结束任务时，语音"你好小亚"唤醒机器人，机器人回应："我在，请吩咐"，此时会打断该程序，程序进程自动杀死，可以进行下一个指令，

![](/media/202512/ab45a303bc8d446d86ed569876d1fb288985.png)
此时机器人又再次进入自由对话状态，但所有的对话历史会被一直保留。此时可以再此唤醒小亚，“结束当前任务”，让机器人结束当前的任务周期，清理掉对话历史，开启新的任务周期。

![](/media/202512/4338ec9b2baf419090f41d66417099571852.png)

22、多模态视觉理解+自动追踪