### **多模态是指利用多种不同形式或感知渠道的信息进行表达、交流和理解的方式，通常包括视觉、听觉、文本、触觉等多种感官输入和输出方式。在计算机科学、人工智能和机器学习领域，多模态技术指的是通过整合来自不同模态的数据（如图像、文字、音频、视频等），从而增强模型的理解能力和推理能力。这种整合可以提高信息的完整性和准确性，因为每种模态可以为特定任务提供独特的信息。例如，在自动驾驶中，摄像头提供视觉信息，激光雷达提供空间感知数据，结合这些多模态信息可以使系统更好地识别障碍物并做出准确的决策。在自然语言处理和计算机视觉领域，多模态模型能够同时处理图像和文本任务，如图文描述生成、视觉问答等，帮助模型实现跨领域的理解和生成。这种多模态技术被广泛应用于人机交互、自动驾驶、医疗诊断等场景，展示了其强大的应用潜力。**

### 1、语义理解和指令遵循
#### 1.课程内容
运行大模型程序后，用户可以通过语音对话方式与机器人进行交互，用户语音指令首先通过语音识别大模型转换成文字，再由文本生成大模型和视觉多模态精准理解用户指令和语音，最后机器人按照用户指令完成指定动作并回复用户。
### 2.准备工作
连接机器人，打开终端
### 3. 运行案例
#### 3.1 启动程序
打开终端输入命令：

```
ros2 launch largemodel largemodel_control.launch.py
```

![](/media/202512/ee0b769be29b4c83a16e3de225e628e86296.png)
初始化完成后会显示如下内容

![](/media/202512/abbeadd06a114d66adfdab327cb63d224272.png)
### 3.2 测试案例
这里给出的测试案例，可以自行编撰自己的测试指令
比如：
**快速前进1米，缓慢后退0.5米，然后左转30度，右转90度，1号舵机转到120度，2号舵机转到0度。
将舵机复位后，顺时针转一圈，然后再给我讲个关于小猫和小狗的笑话**
#### 3.2.1 案例1
首先使用"你好小亚"唤醒机器人，机器人回应："**我在，请吩咐**"，机器人应答后蜂鸣器短暂（beep—）响后，用户可以进行讲话，机器人会进行动态声音检测，如果有声音活动则打印1,无声音活动会打印-,当说话结束后会进行尾音检测，静音超过450ms则停止录音。
动态声音检测（VAD）如下图所示：

![](/media/202512/95af6f36ee8143bc84d753c0319204534739.png)

机器人会先与用户进行对方回复用户，然后按照指令动作，同时终端打印信息如下：

![](/media/202512/ed0869bf774b491abc56f46d5fa95fe88497.png)
**大模型回复信息解读：**

**决策层大模型输出**：决策层AI规划：1. 前进1米, 后退0.5米, 左转30度, 右转90度 2.一号舵机转到120度, 二号舵机转到0度。
**决策层大模型输出**：[model_service]: "action": ['set_cmdvel(0.5, 0, 0, 2)', 'set_cmdvel(-0.2, 0, 0, 2.5)', 'move_left(30, 3.0)', 'move_right(90, 3.0)'], "response": 好嘞，我这就开始行动啦，先快速前进1米，再慢慢后退0.5米，然后左转30度，右转90度，一套动作行云流水，感觉自己像个小舞者~、[action_service]: Published message: 机器人反馈：执行['set_cmdvel(0.5, 0, 0, 2)', 'set_cmdvel(-0.2, 0, 0, 2.5)', 'move_left(30, 3.0)', 'move_right(90, 3.0)']完成，[model_service]: "action": ['servo1_move(120)', 'servo2_move(0)'], "response":动作完成啦，现在我来调整我的小脑袋，一号舵机转到120度，二号舵机归零，感觉自己像个小机器人艺术家，正在摆出最酷的姿势~，[action_service]: Published message: 机器人反馈:执行['servo1_move(120)', 'servo2_move(0)']完成、[model_service]: action": ['finishtask()'], "response": 所有动作都顺利完成啦，我可是个认真又可爱的机器人哦，有需要再叫我呀~

动作列表中有**finishtask()**，证明执行层大模型判定机器人已经完成了用户指令，进入**等待状态**，此时可以再此唤醒小亚，结束当前任务：

![](/media/202512/71ff44455a164cd8bce3fdc78fd41f196006.png)
**3.2.2 案例2**
和案例1测试相同，首先使用"你好小亚"唤醒机器人，机器人应答后蜂鸣器短暂（beep—）响后，用户可以进行讲话，讲话完成后，机器人回复用户并按照指令进行运动。

![](/media/202512/124a4202e97342098a6d9e22beca66231435.png)

### 4.常见问题解决方案
#### 4.1麦克风录音过于灵敏
如果发现在说话阶段结束后VAD语音活动检测一直显示“1”，无法停止录音证明是麦克风设置过于灵敏一直有语音活动，可以尝试降低麦克风灵敏度
首先通过VNC连接机器人车机端画面，jetson用户，点击右上方选项栏，找到**Settings**选项。

![](/media/202512/1c4744b9946b412089e608c285a02c3e2489.png)

下拉左侧Settings列表，找大Sound选项，在Sound页面找到Input音频输入Input Device，拖动下方Volume即可调整灵敏度，录音时尝试调整至合适值。

![](/media/202512/cc78867b2cae49d28af3d9ececafd8d05813.png)

### 5.2麦克风录音不灵敏
如果说话人的位置与机器人之间距离较远，则VAD语音活动检测可能会检测不到声音活动，导致说话人话没说完就提前结束录音，此时可以参考5.1麦克风录音过于灵敏中的步骤适当增大麦克风灵敏度。

>i **信息提示**
>
> 注意：
> 如果麦克风灵敏度调整的过高，则可能提高对环境噪音的误判，将环境噪音认为是语音活动。

### 5.3语音识别不完整
不同语音识别模型对相同音频的识别效果会有差异，推荐使用默认设置的paraformer系列模型或本地SenseVoiceSmall 模型。我们机器人默认就是这个。
#### 5.4语音模块识别错误
语音模块接触不稳定，建议更换USB口，或者拔插解决

![](/media/202512/a59154fcef40407c9c45b42eecc483817535.png)

20、多模态语义理解、指令遵循