KI + ML
Wir integrieren KI in Business-Software — RAG (Retrieval-Augmented Generation) über Ihre Daten, KI-Agenten mit realen Aktionen, strukturierte Extraktion aus PDFs / Formularen / E-Mails, Klassifikations- + Scoring-Pipelines. Unsere internen Use Cases umfassen den Merot-Finance-KI-Buchhaltungs-Assistenten, Lead-Scoring in Merot Leads und Rechnungs-OCR.
Konkrete Ergebnisse
- RAG über Ihre Wissensdatenbank — interne Docs / Notion / Confluence / Slack-Archive → durchsuchbarer KI-Assistent.
- Strukturierte Extraktion aus Dokumenten — Rechnungen, Verträge, Formulare, Spesenberichte. JSON-Output, den Sie in Ihrer DB speichern können.
- KI-Agenten mit realen Aktionen — Meetings buchen, E-Mails entwerfen, Datenbank-Abfragen ausführen, in Slack posten.
- Klassifikation + Scoring — Lead-Scoring, Betrugserkennung, Sentiment, Content-Moderation.
- Embeddings + Suche — semantische Suche über Produktkatalog, Support-Tickets, Code-Repository.
- On-Premises-Modell-Serving — wenn Datenschutz Cloud-APIs ausschließt. Llama 3, Mixtral, fine-tunede kleinere Modelle.
Womit wir arbeiten
Wir wählen, was zu Ihrem Team passt — keine erzwungenen Präferenzen.
API providers
OpenAI · Anthropic Claude · Google Gemini · Mistral AI · Cohere
Frameworks
LangChain (sometimes) · LlamaIndex · Vercel AI SDK · Anthropic SDK · OpenAI SDK
Vector databases
pgvector (Postgres) · Pinecone · Qdrant · Weaviate · Chroma
Self-hosted models
Llama 3 (8B-70B) · Mistral 7B / Mixtral 8x7B · Whisper (speech-to-text) · Stable Diffusion (image)
Inference infra
AWS Bedrock · Replicate · Together AI · self-hosted via vLLM / TGI
Eval + observability
LangSmith · Helicone · OpenAI usage dashboards · custom eval harnesses
So arbeiten wir
Discovery (1 Woche)
Use Case klar definieren: welcher Input → welcher Output. Evals vorab schreiben, damit wir wissen, was 'funktioniert' bedeutet.
Prototyp (1-2 Wochen)
Kleinstmöglicher LLM-Call, der den gewünschten Output liefert. Messen am Eval-Set. Entscheiden: API oder Self-Hosted, welches Modell, welcher Prompt.
Produktion (3-6 Wochen)
Mit Retries, Fallbacks, Observability, Kostenkontrollen (Token-Budgets, Rate-Limits) umhüllen. In Ihr Produkt einbinden.
Iterieren
KI-Features brauchen laufende Evals, wenn sich Modelle ändern. Monatlicher Retainer oder geplanter quartalsweiser Tune-Up.
Aus unserer eigenen Produktion
Merot-Finance-KI-Assistent
Anthropic Claude integriert für Bank-Statement-Matching, Buchungs-Vorschläge und Monatsabschluss-Review.
Merot-Leads-Scoring
Claude für Product-Fit-Scoring auf Anreicherung + Outreach-Entwürfen. Custom Prompt + strukturierter Output.
Rechnungs-OCR-Pipeline
Multi-Stage-Extraktion: OCR → LLM-Strukturierter-Output → Human-Review-Queue für Items mit geringer Konfidenz.
Woher diese Engineers kommen
Direkte EOR-Anstellung in zwei Märkten, Einstellungs-Beratung in vier weiteren.
Senior-Ingenieure aus Nordmazedonien
Merots Heimatmarkt — größter Pool. ~30.000 IT-Fachkräfte. Direkter EOR über MEROT DOOEL Skopje.
Arbeitsrecht + Lohndetails →Engineers aus Kosovo
Jüngste Bevölkerung Europas, Euro-Währung (kein Wechselkursrisiko). Direkter EOR über MEROT L.L.C. Pristina.
Arbeitsrecht + Lohndetails →Plus 4 Beratungsmärkte
Albanien, Serbien, Bulgarien, Montenegro — Einstellungs-Beratung + geprüfte lokale Lohnabrechnungs-Partner. Siehe Outsourcing-Landing für Trade-Offs.
Outsourcing-Landing →Engagement-Modell
Häufige Fragen — KI + ML
Soll ich OpenAI, Anthropic oder Self-Host nutzen?
Standardmäßig: Mit Anthropic (Claude 3.5 Sonnet / Claude 4) oder OpenAI (GPT-4-Familie) für den Prototyp starten. Self-Hosted nur wenn (a) Datenresidenz es erfordert oder (b) die Per-Call-Kosten die Engineering- + Infra-Kosten des Selbstbetriebs übersteigen. Die meisten Kunden bleiben jahrelang bei den API-Anbietern.
Werden meine Daten jemandes Modell trainieren?
Nicht in den Enterprise-Tiers von OpenAI / Anthropic / Google — sie haben explizite No-Training-on-Customer-Data-Klauseln. Wir aktivieren diese Einstellungen beim Onboarding.
Was, wenn die KI halluziniert / falschen Output liefert?
Zwei Schichten: (1) Eval-Harness — wir messen Korrektheit auf einem gelabelten Testset vor dem Shippen und erneut bei jeder Prompt-Änderung. (2) Produktion — Outputs mit hoher Konfidenz laufen direkt durch; Outputs mit niedriger Konfidenz gehen in eine Human-Review-Queue.
Kosten — wird das nicht teuer?
Häufige Sorge, oft übertrieben. Token-Kosten sind in 18 Monaten um 90 %+ gefallen. Die meisten Produktions-Features kosten <$1K/Monat an API-Spend bei nennenswertem Traffic. Wir setzen harte Token-Budgets + Alerts, um Runaway-Calls abzufangen.
Machen Sie Fine-Tuning?
Manchmal — üblicherweise nur, wenn der Prompt-Ansatz wirklich nicht ausreicht. Fine-Tuning hat höhere Up-Front-Kosten (Kurieren der Trainingsdaten) und Re-Tuning-Aufwand bei jedem Modell-Upgrade. Typisch empfehlen wir zuerst bessere Prompts + RAG.
Privacy / nur On-Premises — können Sie das?
Ja. Wir haben Llama 3 70B und Mixtral 8x22B On-Premises (Single-GPU H100 oder 4xA100-Setups) für Kunden in regulierten Branchen deployed. Höhere Up-Front-Kosten, niedrigere Per-Call-Kosten, volle Datenresidenz.
KI-Agenten — sind die schon real?
Vorsichtig ja. Single-Purpose-Agents (Meeting buchen, E-Mail entwerfen, SQL-Query ausführen) funktionieren mit angemessenen Guardrails gut. Generische 'Do-Anything'-Agents sind noch flaky. Wir scopen standardmäßig auf Single-Purpose.
Voice / Speech?
Whisper für Speech-to-Text, ElevenLabs / OpenAI TTS für Synthese. Wir haben Call-Summary- + Voice-Note-Transkriptions-Features für Kunden im Rechts- + Gesundheits-Bereich gebaut.
KI + ML-Projekt scopen
60 Min. Discovery-Call kostenlos. 6-seitiger Plan in 48 h.