实时 AI 摄影指导应用,基于 Gemini Live API。通过语音和视觉分析,即时获得专业的构图、光线和角度建议。
- 📷 实时摄像头画面分析
- 🎙️ 语音交互式摄影指导
- 📐 三分法构图网格叠加
- 💡 构图、光线、背景专业建议
- 🎯 完美时刻快门提示
- 🔇 麦克风静音切换
- Node.js 18+
- 现代浏览器(Chrome/Edge 推荐)
- Gemini API Key(获取地址)
-
克隆项目
git clone https://github.com/Yi-Lyu/VisionShot-AI-Coach.git cd VisionShot-AI-Coach -
安装依赖
npm install
-
配置 API Key
cp public/config.example.json public/config.json
编辑
public/config.json,填入你的 Gemini API Key:{ "gemini": { "apiKey": "YOUR_GEMINI_API_KEY_HERE", "model": "gemini-2.5-flash-native-audio-preview-12-2025" } } -
启动开发服务器
npm run dev
-
访问应用
打开浏览器访问 https://localhost:8006
⚠️ 注意:需要使用 HTTPS 才能访问摄像头和麦克风
-
构建项目
npm run build
-
预览构建结果
npm run preview
-
部署到服务器
将
dist目录部署到任意静态文件服务器,确保:- 配置 HTTPS(必需,用于摄像头/麦克风权限)
- 将
config.json放在服务器的public目录下
# 同步到远程服务器
rsync -avz --exclude 'node_modules' --exclude '.git' ./ user@server:/path/to/app/
# SSH 到服务器
ssh user@server
# 安装依赖并启动
cd /path/to/app
npm install
npm run dev -- --host 0.0.0.0所有配置项在 public/config.json 中:
| 配置项 | 说明 | 默认值 |
|---|---|---|
gemini.apiKey |
Gemini API 密钥 | 必填 |
gemini.model |
Gemini 模型名称 | gemini-2.5-flash-native-audio-preview-12-2025 |
camera.frameRate |
每秒发送帧数 | 1 |
camera.jpegQuality |
图片压缩质量 | 0.5 |
camera.resolution |
摄像头分辨率 | 1280x720 |
audio.inputSampleRate |
麦克风采样率 | 16000 |
audio.outputSampleRate |
扬声器采样率 | 24000 |
audio.voiceName |
AI 语音名称 | Kore |
- React 19 + TypeScript
- Vite
- Tailwind CSS
- Gemini Live API (@google/genai)
- 🔐 API Key 安全:
public/config.json已在.gitignore中忽略,请勿提交敏感信息 - 🎧 使用耳机:建议使用耳机避免音频回声
- 📱 移动端支持:支持移动端浏览器,需要 HTTPS 环境
MIT License
Kapi Cam AI实验室 出品