Dieses Repository bietet eine auf Unity basierende Vorlage für einen Kurs zu AI-in-XR, der die Integration künstlicher Intelligenz mit erweiterten Realitäten (XR) demonstriert. Die Vorlage umfasst Implementierungen zur Gestenerkennung und Dialogsysteme mit LLMs.
Diese Vorlage dient als Grundlage für die Entwicklung von XR-Anwendungen, die AI-Funktionen integrieren. Sie beinhaltet:
- Gestenerkennung mithilfe von MediaPipe Hands
- Dialogsystem mit LLM-Integration
- Modulare Architektur für einfache Erweiterungsmöglichkeiten
- Testrahmenwerk zur Validierung
AI-in-XR-Template/
├── Assets/
│ ├── Scripts/
│ │ ├── GestureRecognition/
│ │ │ └── HandGestureRecognizer.cs
│ │ ├── DialogueSystem/
│ │ │ └── AIDialogueManager.cs
│ │ └── Tests/
│ │ └── GestureTests.cs
│ ├── Scenes/
│ │ └── SampleScene.unity
│ └── Plugins/
│ └── MediaPipe/
├── Documentation/
│ └── UsageGuide.md
└── README.md
- Erstelle ein neues Unity-Projekt
- Installiere die erforderlichen Abhängigkeiten
- Importiere diese Vorlage in dein Projekt
- Konfiguriere die Szenen und Komponenten
- Unity 2021.3 oder später
- AR Foundation
- ARCore/ARKit (für mobile XR)
- MediaPipe Unity Plugin (Hands/Poses)
- Vosk Speech-to-Text Library
- Hugging Face/Transformers API oder lokales LLM
Der HandGestureRecognizer-Komponente bietet eine grundlegende Gestenerkennung unter Verwendung von MediaPipe-Landmarken. Sie erkennt die Faustgeste, indem sie den Abstand zwischen Daumen- und Zeigefingergipfel misst.
Der AIDialogueManager-Komponente implementiert ein minimalistisches Chatbot-System, das:
- Benutzereingaben verarbeitet
- Mit einem lokalen LLM Antworten generiert
- Callbacks für Anwendungslogik bereitstellt
Unit-Tests sind enthalten, um die Gestenerkennung und Dialogverarbeitung zu validieren. Siehe GestureTests.cs für Beispiele.
Die Vorlage folgt diesem Entwicklungsprozess:
- Minimaler Prototyp
- Echtzeit-Interaktion
- Kontextuelle Erweiterungen
- Evaluation-Rahmen erstellen
- Füge komplexere Gestenalgorithmik hinzu (z.B. ML.NET)
- Integriere mit 3D-Modellanbindungen
- Integriere SAM/CLIP für multimodale Interaktion
- Implementiere Retrieval-Augmented Generation-Patterns
- Verbinde mit Web-APIs zum Zugriff auf umfassendes Wissen
This repository provides a Unity-based template for an AI-in-XR course that demonstrates integration of artificial intelligence with extended reality (XR) applications. The template includes implementations for gesture recognition and dialogue systems with LLMs.
This template serves as a foundation for developing XR applications that incorporate AI capabilities. It includes:
- Gesture recognition using MediaPipe Hands
- Dialogue system with LLM integration
- Modular architecture for easy extension
- Test framework for validation
AI-in-XR-Template/
├── Assets/
│ ├── Scripts/
│ │ ├── GestureRecognition/
│ │ │ └── HandGestureRecognizer.cs
│ │ ├── DialogueSystem/
│ │ │ └── AIDialogueManager.cs
│ │ └── Tests/
│ │ └── GestureTests.cs
│ ├── Scenes/
│ │ └── SampleScene.unity
│ └── Plugins/
│ └── MediaPipe/
├── Documentation/
│ └── UsageGuide.md
└── README.md
- Create a new Unity project
- Install required dependencies
- Import this template into your project
- Configure the scenes and components
- Unity 2021.3 or later
- AR Foundation
- ARCore/ARKit (for mobile XR)
- MediaPipe Unity Plugin (Hands/Poses)
- Vosk Speech-to-Text Library
- Hugging Face/Transformers API or local LLM
The HandGestureRecognizer component provides basic gesture detection using MediaPipe landmarks. It detects a fist gesture by measuring the distance between thumb and index finger tips.
The AIDialogueManager component implements a minimal chatbot system that:
- Processes user input
- Generates responses using a local LLM
- Provides callbacks for application logic
Unit tests are included to validate gesture detection and dialogue processing. See GestureTests.cs for examples.
The template follows this development path:
- Minimal Prototype
- Real-time Interaction
- Contextual Extensions
- Create Evaluation Framework
- Add more complex gesture algorithms (e.g., ML.NET)
- Integrate with 3D model attachments
- Integrate SAM/CLIP for multimodal interaction
- Implement Retrieval-augmented Generation patterns
- Connect to Web APIs for comprehensive knowledge access