问题或动机
目前 Qclaw 的聊天界面仅支持文本交互。我在配置渠道或调试过程中,经常需要处理截图中的配置信息或报错日志。由于无法直接发送图片,我必须手动输入文字或描述图片内容,这导致:
- 效率低下: 复杂信息手动录入非常耗时。
- 易出错: 手动转录配置参数容易出现人为失误。
- 场景受限: 无法利用 AI 处理视觉类任务(如 OCR 识别、UI 分析等)。
建议方案
建议为 Qclaw 引入多模态交互能力,具体包括:
前端支持: 允许在聊天输入框粘贴、拖拽或选择图片并发送。
后端适配: 参考 QQ 等网关协议,打通图片消息的传输链路,使“小龙虾”能够接收到 Image 消息对象。
功能闭环: 接入 OCR 或视觉模型接口,实现对图片内容的解析与处理,从而支持更丰富的自动化配置场景。
替代方案
No response
补充信息
No response
问题或动机
目前 Qclaw 的聊天界面仅支持文本交互。我在配置渠道或调试过程中,经常需要处理截图中的配置信息或报错日志。由于无法直接发送图片,我必须手动输入文字或描述图片内容,这导致:
建议方案
建议为 Qclaw 引入多模态交互能力,具体包括:
前端支持: 允许在聊天输入框粘贴、拖拽或选择图片并发送。
后端适配: 参考 QQ 等网关协议,打通图片消息的传输链路,使“小龙虾”能够接收到 Image 消息对象。
功能闭环: 接入 OCR 或视觉模型接口,实现对图片内容的解析与处理,从而支持更丰富的自动化配置场景。
替代方案
No response
补充信息
No response