initial commit

2025-11-04 20:54:13 +01:00
parent 214d0a2a77
commit 95fb5c7020
3 changed files with 468 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,3 @@
 venv
 *.mp3
 *.txt
--- a/README.md
+++ b/README.md
@@ -0,0 +1,232 @@
 # Meeting Audio Summarizer
 Dieses Python-Programm transkribiert Audio-Dateien von Meetings mit Whisper (lokal) und erstellt automatisch eine Zusammenfassung mit einem LLM über eine OpenAI-kompatible API.
 ## Features
 - 🎤 **Lokale Transkription** mit OpenAI Whisper (keine Cloud erforderlich)
 - 🤖 **Flexible LLM-Integration** über OpenAI-kompatible APIs
 - 📝 **Strukturierte Zusammenfassungen** mit Hauptthemen, Entscheidungen und Action Items
 - 🔄 **Provider-unabhängig** - funktioniert mit OpenAI, Anthropic, Ollama, LM Studio, etc.
 - 💾 **Automatisches Speichern** von Transkript und Zusammenfassung
 ## Installation
 ### Voraussetzungen
 - Python 3.8 oder höher
 - ffmpeg (für Audio-Verarbeitung)
 #### ffmpeg Installation
 **Ubuntu/Debian:**
 ```bash
 sudo apt update
 sudo apt install ffmpeg
 ```
 **macOS:**
 ```bash
 brew install ffmpeg
 ```
 **Windows:**
 Lade ffmpeg von https://ffmpeg.org/download.html herunter und füge es zum PATH hinzu.
 ### Python-Pakete installieren
 ```bash
 pip install -r requirements.txt
 ```
 Whisper benötigt beim ersten Start einige Zeit zum Herunterladen der Modelle.
 ## Konfiguration
 ### API-Key setzen
 Setze deinen API-Key als Umgebungsvariable:
 ```bash
 export OPENAI_API_KEY="dein-api-key"
 ```
 Oder übergebe ihn direkt beim Aufruf mit `--api-key`.
 ### Alternative LLM-Provider
 Das Programm funktioniert mit jedem OpenAI-kompatiblen Endpunkt:
 #### Ollama (lokal)
 ```bash
 python meeting_summarizer.py meeting.mp3 \
  --api-base http://localhost:11434/v1 \
  --api-key ollama \
  --model llama3.2
 ```
 #### LM Studio (lokal)
 ```bash
 python meeting_summarizer.py meeting.mp3 \
  --api-base http://localhost:1234/v1 \
  --api-key lm-studio \
  --model local-model
 ```
 #### Anthropic Claude (via OpenAI-Kompatibilitätslayer)
 ```bash
 python meeting_summarizer.py meeting.mp3 \
  --api-base https://api.anthropic.com/v1 \
  --api-key $ANTHROPIC_API_KEY \
  --model claude-3-5-sonnet-20241022
 ```
 #### OpenRouter
 ```bash
 python meeting_summarizer.py meeting.mp3 \
  --api-base https://openrouter.ai/api/v1 \
  --api-key $OPENROUTER_API_KEY \
  --model anthropic/claude-3.5-sonnet
 ```
 ## Verwendung
 ### Basis-Verwendung
 ```bash
 python meeting_summarizer.py meeting.mp3
 ```
 Dies erstellt:
 - `meeting_transcript.txt` - Vollständiges Transkript
 - `meeting_summary.txt` - Zusammenfassung
 ### Mit Optionen
 ```bash
 python meeting_summarizer.py meeting.wav \
  --whisper-model medium \
  --model gpt-4 \
  --output-dir ./summaries \
  --api-base https://api.openai.com/v1
 ```
 ### Alle Optionen
 ```
 Optionen:
  audio_file              Pfad zur Audio-Datei (mp3, wav, m4a, etc.)
  --whisper-model MODEL   Whisper-Modellgröße (default: base)
                         Optionen: tiny, base, small, medium, large
  --api-base URL         Base URL für OpenAI-kompatible API
                         (default: https://api.openai.com/v1)
  --api-key KEY          API-Key (nutzt OPENAI_API_KEY wenn nicht angegeben)
  --model MODEL          LLM-Modellname (default: gpt-4)
  --output-dir DIR       Ausgabeverzeichnis für Transkript und Zusammenfassung
                         (default: gleiches Verzeichnis wie Audio-Datei)
  --no-transcript        Vollständiges Transkript nicht speichern
 ```
 ## Whisper-Modelle
 Die Wahl des Whisper-Modells beeinflusst Geschwindigkeit und Genauigkeit:
 | Modell | Parameter | Geschwindigkeit | Genauigkeit | Empfehlung |
 |--------|-----------|-----------------|-------------|------------|
 | tiny   | 39M       | Sehr schnell    | Niedrig     | Schnelle Tests |
 | base   | 74M       | Schnell         | Gut         | **Standard** |
 | small  | 244M      | Mittel          | Sehr gut    | Gute Balance |
 | medium | 769M      | Langsam         | Ausgezeichnet | Hohe Qualität |
 | large  | 1550M     | Sehr langsam    | Beste       | Produktionsumgebung |
 **Empfehlung für Meetings:** `base` oder `small` für gute Balance zwischen Geschwindigkeit und Qualität.
 ## Unterstützte Audio-Formate
 Alle Formate, die von ffmpeg unterstützt werden:
 - MP3
 - WAV
 - M4A
 - FLAC
 - OGG
 - WMA
 - AAC
 ## Programmatische Verwendung
 Du kannst das Programm auch als Modul verwenden:
 ```python
 from meeting_summarizer import MeetingSummarizer
 # Initialisiere den Summarizer
 summarizer = MeetingSummarizer(
    whisper_model="base",
    api_base_url="http://localhost:11434/v1",
    api_key="ollama",
    model_name="llama3.2"
 )
 # Verarbeite ein Meeting
 transcript, summary = summarizer.process_meeting(
    audio_path="meeting.mp3",
    output_dir="./output",
    save_transcript=True
 )
 print(summary)
 ```
 ## Performance-Tipps
 ### Für schnellere Transkription:
 - Nutze kleinere Whisper-Modelle (`tiny` oder `base`)
 - Nutze GPU-Beschleunigung (CUDA) falls verfügbar
 - Whisper installiert automatisch die passende Version für deine Hardware
 ### Für bessere Qualität:
 - Nutze größere Whisper-Modelle (`medium` oder `large`)
 - Stelle sicher, dass die Audio-Qualität gut ist
 - Bei mehrsprachigen Meetings: Entferne `language="de"` im Code für Auto-Detection
 ## Tipps für embedded Systems
 Da du mit embedded Systems arbeitest, hier einige Hinweise für ressourcenbeschränkte Umgebungen:
 - **Raspberry Pi:** Nutze `tiny` oder `base` Modell
 - **Echtzeit-Verarbeitung:** Whisper ist nicht für Echtzeit optimiert, verarbeite Aufnahmen nachträglich
 - **Speicher:** `base` benötigt ~140MB RAM, `large` ~3GB
 - **Alternative:** Nutze Whisper.cpp für C++-Integration in embedded Systems
 ## Troubleshooting
 ### "No module named 'whisper'"
 ```bash
 pip install openai-whisper
 ```
 ### "ffmpeg not found"
 Installiere ffmpeg (siehe Installationsanleitung oben)
 ### "API key not provided"
 Setze die Umgebungsvariable oder übergebe `--api-key`
 ### Langsame Transkription
 Nutze ein kleineres Modell oder aktiviere GPU-Beschleunigung
 ## Lizenz
 Frei verwendbar für private und kommerzielle Zwecke.
 ## Hinweise
 - Whisper läuft komplett lokal - keine Audio-Daten werden gesendet
 - Nur der transkribierte Text wird an das LLM gesendet
 - Achte auf Datenschutz bei sensiblen Meeting-Inhalten
 - Die Qualität der Zusammenfassung hängt vom gewählten LLM ab
--- a/meeting_summarizer.py
+++ b/meeting_summarizer.py
@@ -0,0 +1,233 @@
 #!/usr/bin/env python3
 """
 Meeting Audio Summarizer
 Transcribes audio files using local Whisper and summarizes using OpenAI-compatible API
 """
 import argparse
 import os
 from pathlib import Path
 from typing import Optional
 import whisper
 from openai import OpenAI
 class MeetingSummarizer:
    """Handles audio transcription and summarization of meetings"""
    def __init__(
        self,
        whisper_model: str = "base",
        api_base_url: str = "https://api.openai.com/v1",
        api_key: Optional[str] = None,
        model_name: str = "gpt-4",
        output_language: str = "english"
    ):
        """
        Initialize the meeting summarizer
        Args:
            whisper_model: Whisper model size (tiny, base, small, medium, large)
            api_base_url: Base URL for OpenAI-compatible API
            api_key: API key (will use OPENAI_API_KEY env var if not provided)
            model_name: Name of the LLM model to use
            output_language: Language for the summary output (e.g., "english", "german", "spanish")
        """
        print(f"Loading Whisper model '{whisper_model}'...")
        self.whisper_model = whisper.load_model(whisper_model)
        self.output_language = output_language
        self.api_key = api_key or os.getenv("OPENAI_API_KEY")
        if not self.api_key:
            raise ValueError(
                "API key not provided. Set OPENAI_API_KEY environment variable "
                "or pass api_key parameter"
            )
        self.client = OpenAI(
            api_key=self.api_key,
            base_url=api_base_url
        )
        self.model_name = model_name
    def transcribe_audio(self, audio_path: str) -> dict:
        """
        Transcribe audio file using Whisper
        Args:
            audio_path: Path to audio file (mp3, wav, m4a, etc.)
        Returns:
            Dictionary with transcription results including text and segments
        """
        print(f"Transcribing audio file: {audio_path}")
        if not Path(audio_path).exists():
            raise FileNotFoundError(f"Audio file not found: {audio_path}")
        result = self.whisper_model.transcribe(
            audio_path,
            language=None,  # Auto-detect language
            verbose=False
        )
        print(f"Transcription complete. Length: {len(result['text'])} characters")
        return result
    def summarize_text(self, text: str) -> str:
        """
        Summarize transcribed text using LLM
        Args:
            text: Transcribed text to summarize
        Returns:
            Summary text
        """
        print("Generating summary using LLM...")
        system_prompt = f"""You are an assistant that summarizes meeting transcripts.
 Create a structured summary in {self.output_language} with the following points:
 1. **Main Topics**: The most important topics discussed
 2. **Decisions**: Decisions that were made
 3. **Action Items**: Tasks and responsibilities
 4. **Next Steps**: Planned next steps
 Be precise and concrete. Write your entire response in {self.output_language}."""
        response = self.client.chat.completions.create(
            model=self.model_name,
            messages=[
                {"role": "system", "content": system_prompt},
                {"role": "user", "content": f"Please summarize this meeting transcript:\n\n{text}"}
            ],
            temperature=0.3,
            max_tokens=2000
        )
        summary = response.choices[0].message.content
        print("Summary generated successfully")
        return summary
    def process_meeting(
        self,
        audio_path: str,
        output_dir: Optional[str] = None,
        save_transcript: bool = True
    ) -> tuple[str, str]:
        """
        Complete pipeline: transcribe and summarize meeting audio
        Args:
            audio_path: Path to audio file
            output_dir: Directory to save outputs (default: same as audio file)
            save_transcript: Whether to save the full transcript
        Returns:
            Tuple of (transcript, summary)
        """
        # Transcribe
        result = self.transcribe_audio(audio_path)
        transcript = result["text"]
        # Generate summary
        summary = self.summarize_text(transcript)
        # Save outputs if requested
        if output_dir or save_transcript:
            audio_file = Path(audio_path)
            if output_dir:
                output_path = Path(output_dir)
            else:
                output_path = audio_file.parent
            output_path.mkdir(parents=True, exist_ok=True)
            base_name = audio_file.stem
            if save_transcript:
                transcript_file = output_path / f"{base_name}_transcript.txt"
                transcript_file.write_text(transcript, encoding="utf-8")
                print(f"Transcript saved to: {transcript_file}")
            summary_file = output_path / f"{base_name}_summary.txt"
            summary_file.write_text(summary, encoding="utf-8")
            print(f"Summary saved to: {summary_file}")
        return transcript, summary
 def main():
    parser = argparse.ArgumentParser(
        description="Transcribe and summarize meeting audio files"
    )
    parser.add_argument(
        "audio_file",
        help="Path to audio file (mp3, wav, m4a, etc.)"
    )
    parser.add_argument(
        "--whisper-model",
        default="base",
        choices=["tiny", "base", "small", "medium", "large"],
        help="Whisper model size (default: base)"
    )
    parser.add_argument(
        "--api-base",
        default="https://api.openai.com/v1",
        help="Base URL for OpenAI-compatible API"
    )
    parser.add_argument(
        "--api-key",
        help="API key (defaults to OPENAI_API_KEY env var)"
    )
    parser.add_argument(
        "--model",
        default="gpt-4",
        help="LLM model name (default: gpt-4)"
    )
    parser.add_argument(
        "--language",
        default="english",
        help="Output language for the summary (e.g., english, german, spanish) (default: english)"
    )
    parser.add_argument(
        "--output-dir",
        help="Output directory for transcript and summary"
    )
    parser.add_argument(
        "--no-transcript",
        action="store_true",
        help="Don't save the full transcript"
    )
    args = parser.parse_args()
    try:
        summarizer = MeetingSummarizer(
            whisper_model=args.whisper_model,
            api_base_url=args.api_base,
            api_key=args.api_key,
            model_name=args.model,
            output_language=args.language
        )
        transcript, summary = summarizer.process_meeting(
            audio_path=args.audio_file,
            output_dir=args.output_dir,
            save_transcript=not args.no_transcript
        )
        print("\n" + "=" * 80)
        print("SUMMARY")
        print("=" * 80)
        print(summary)
    except Exception as e:
        print(f"Error: {e}")
        return 1
    return 0
 if __name__ == "__main__":
    exit(main())