Leistung

KI + ML

Wir integrieren KI in Business-Software — RAG (Retrieval-Augmented Generation) über Ihre Daten, KI-Agenten mit realen Aktionen, strukturierte Extraktion aus PDFs / Formularen / E-Mails, Klassifikations- + Scoring-Pipelines. Unsere internen Use Cases umfassen den Merot-Finance-KI-Buchhaltungs-Assistenten, Lead-Scoring in Merot Leads und Rechnungs-OCR.

Konkrete Ergebnisse

  • RAG über Ihre Wissensdatenbank — interne Docs / Notion / Confluence / Slack-Archive → durchsuchbarer KI-Assistent.
  • Strukturierte Extraktion aus Dokumenten — Rechnungen, Verträge, Formulare, Spesenberichte. JSON-Output, den Sie in Ihrer DB speichern können.
  • KI-Agenten mit realen Aktionen — Meetings buchen, E-Mails entwerfen, Datenbank-Abfragen ausführen, in Slack posten.
  • Klassifikation + Scoring — Lead-Scoring, Betrugserkennung, Sentiment, Content-Moderation.
  • Embeddings + Suche — semantische Suche über Produktkatalog, Support-Tickets, Code-Repository.
  • On-Premises-Modell-Serving — wenn Datenschutz Cloud-APIs ausschließt. Llama 3, Mixtral, fine-tunede kleinere Modelle.

Womit wir arbeiten

Wir wählen, was zu Ihrem Team passt — keine erzwungenen Präferenzen.

API providers

OpenAI · Anthropic Claude · Google Gemini · Mistral AI · Cohere

Frameworks

LangChain (sometimes) · LlamaIndex · Vercel AI SDK · Anthropic SDK · OpenAI SDK

Vector databases

pgvector (Postgres) · Pinecone · Qdrant · Weaviate · Chroma

Self-hosted models

Llama 3 (8B-70B) · Mistral 7B / Mixtral 8x7B · Whisper (speech-to-text) · Stable Diffusion (image)

Inference infra

AWS Bedrock · Replicate · Together AI · self-hosted via vLLM / TGI

Eval + observability

LangSmith · Helicone · OpenAI usage dashboards · custom eval harnesses

So arbeiten wir

01

Discovery (1 Woche)

Use Case klar definieren: welcher Input → welcher Output. Evals vorab schreiben, damit wir wissen, was 'funktioniert' bedeutet.

02

Prototyp (1-2 Wochen)

Kleinstmöglicher LLM-Call, der den gewünschten Output liefert. Messen am Eval-Set. Entscheiden: API oder Self-Hosted, welches Modell, welcher Prompt.

03

Produktion (3-6 Wochen)

Mit Retries, Fallbacks, Observability, Kostenkontrollen (Token-Budgets, Rate-Limits) umhüllen. In Ihr Produkt einbinden.

04

Iterieren

KI-Features brauchen laufende Evals, wenn sich Modelle ändern. Monatlicher Retainer oder geplanter quartalsweiser Tune-Up.

Aus unserer eigenen Produktion

Merot-Finance-KI-Assistent

Anthropic Claude integriert für Bank-Statement-Matching, Buchungs-Vorschläge und Monatsabschluss-Review.

Merot-Leads-Scoring

Claude für Product-Fit-Scoring auf Anreicherung + Outreach-Entwürfen. Custom Prompt + strukturierter Output.

Rechnungs-OCR-Pipeline

Multi-Stage-Extraktion: OCR → LLM-Strukturierter-Output → Human-Review-Queue für Items mit geringer Konfidenz.

Engagement-Modell

KI-Prototyp: $10-30K (1-2 Wochen, lauffähige Demo + Eval-Set + Entscheidungs-Memo zu 'sollen wir shippen'). Produktives KI-Feature: $30-100K je nach Scope. Embedded KI-Engineer: monatlicher Retainer. Wir sind offen bei Modellkosten — API-Token-Spend wird separat zur Engineering-Gebühr berechnet.

Häufige Fragen — KI + ML

Soll ich OpenAI, Anthropic oder Self-Host nutzen?

Standardmäßig: Mit Anthropic (Claude 3.5 Sonnet / Claude 4) oder OpenAI (GPT-4-Familie) für den Prototyp starten. Self-Hosted nur wenn (a) Datenresidenz es erfordert oder (b) die Per-Call-Kosten die Engineering- + Infra-Kosten des Selbstbetriebs übersteigen. Die meisten Kunden bleiben jahrelang bei den API-Anbietern.

Werden meine Daten jemandes Modell trainieren?

Nicht in den Enterprise-Tiers von OpenAI / Anthropic / Google — sie haben explizite No-Training-on-Customer-Data-Klauseln. Wir aktivieren diese Einstellungen beim Onboarding.

Was, wenn die KI halluziniert / falschen Output liefert?

Zwei Schichten: (1) Eval-Harness — wir messen Korrektheit auf einem gelabelten Testset vor dem Shippen und erneut bei jeder Prompt-Änderung. (2) Produktion — Outputs mit hoher Konfidenz laufen direkt durch; Outputs mit niedriger Konfidenz gehen in eine Human-Review-Queue.

Kosten — wird das nicht teuer?

Häufige Sorge, oft übertrieben. Token-Kosten sind in 18 Monaten um 90 %+ gefallen. Die meisten Produktions-Features kosten <$1K/Monat an API-Spend bei nennenswertem Traffic. Wir setzen harte Token-Budgets + Alerts, um Runaway-Calls abzufangen.

Machen Sie Fine-Tuning?

Manchmal — üblicherweise nur, wenn der Prompt-Ansatz wirklich nicht ausreicht. Fine-Tuning hat höhere Up-Front-Kosten (Kurieren der Trainingsdaten) und Re-Tuning-Aufwand bei jedem Modell-Upgrade. Typisch empfehlen wir zuerst bessere Prompts + RAG.

Privacy / nur On-Premises — können Sie das?

Ja. Wir haben Llama 3 70B und Mixtral 8x22B On-Premises (Single-GPU H100 oder 4xA100-Setups) für Kunden in regulierten Branchen deployed. Höhere Up-Front-Kosten, niedrigere Per-Call-Kosten, volle Datenresidenz.

KI-Agenten — sind die schon real?

Vorsichtig ja. Single-Purpose-Agents (Meeting buchen, E-Mail entwerfen, SQL-Query ausführen) funktionieren mit angemessenen Guardrails gut. Generische 'Do-Anything'-Agents sind noch flaky. Wir scopen standardmäßig auf Single-Purpose.

Voice / Speech?

Whisper für Speech-to-Text, ElevenLabs / OpenAI TTS für Synthese. Wir haben Call-Summary- + Voice-Note-Transkriptions-Features für Kunden im Rechts- + Gesundheits-Bereich gebaut.

KI + ML-Projekt scopen

60 Min. Discovery-Call kostenlos. 6-seitiger Plan in 48 h.

Kontakt

Sagen Sie uns, was Sie bauen.

Antwort waehrend der Geschaeftszeiten.

Kein Spam.Direkt an das Merot Team.