Skip to content

关于增加“小龙虾”多模态交互(图片识别与处理)功能的建议 #66

@cupid532

Description

@cupid532

问题或动机

目前 Qclaw 的聊天界面仅支持文本交互。我在配置渠道或调试过程中,经常需要处理截图中的配置信息或报错日志。由于无法直接发送图片,我必须手动输入文字或描述图片内容,这导致:

  1. 效率低下: 复杂信息手动录入非常耗时。
  2. 易出错: 手动转录配置参数容易出现人为失误。
  3. 场景受限: 无法利用 AI 处理视觉类任务(如 OCR 识别、UI 分析等)。

建议方案

建议为 Qclaw 引入多模态交互能力,具体包括:
前端支持: 允许在聊天输入框粘贴、拖拽或选择图片并发送。
后端适配: 参考 QQ 等网关协议,打通图片消息的传输链路,使“小龙虾”能够接收到 Image 消息对象。
功能闭环: 接入 OCR 或视觉模型接口,实现对图片内容的解析与处理,从而支持更丰富的自动化配置场景。

替代方案

No response

补充信息

No response

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Projects

    Status

    Todo

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions