Услуга

AI + ML

Интегрираме AI во business софтвер — RAG (retrieval-augmented generation) врз вашите податоци, AI агенти кои вршат real акции, structured-output extraction од PDFs / forms / emails, classification + scoring pipelines. Нашите внатрешни use cases вклучуваат Merot Finance AI bookkeeping assistant, lead scoring во Merot Leads и invoice OCR.

Конкретни резултати

  • RAG врз вашата knowledge base — внатрешни docs / Notion / Confluence / Slack архиви → searchable AI асистент.
  • Structured extraction од документи — фактури, договори, форми, expense reports. JSON output што можете да го store во вашата DB.
  • AI агенти кои вршат акции — закажуваат состаноци, пишуваат emails, run database queries, post на Slack.
  • Classification + scoring — lead scoring, fraud detection, sentiment, content moderation.
  • Embeddings + search — семантичка пребарувачка врз вашиот product catalog, support тикети, code repository.
  • On-premises model serving — кога data privacy значи дека cloud APIs се off-limits. Llama 3, Mixtral, fine-tuned помали модели.

Со што работиме

Избираме што одговара на вашиот тим. Не наметнуваме наши преференции.

API providers

OpenAI · Anthropic Claude · Google Gemini · Mistral AI · Cohere

Frameworks

LangChain (sometimes) · LlamaIndex · Vercel AI SDK · Anthropic SDK · OpenAI SDK

Vector databases

pgvector (Postgres) · Pinecone · Qdrant · Weaviate · Chroma

Self-hosted models

Llama 3 (8B-70B) · Mistral 7B / Mixtral 8x7B · Whisper (speech-to-text) · Stable Diffusion (image)

Inference infra

AWS Bedrock · Replicate · Together AI · self-hosted via vLLM / TGI

Eval + observability

LangSmith · Helicone · OpenAI usage dashboards · custom eval harnesses

Како работиме

01

Discovery (1 недела)

Дефинирај го use case јасно: каков input → каков output. Пишуваме evals однапред за да знаеме што значи 'working'.

02

Прототип (1-2 недели)

Најмал можен LLM call што го произведува саканиот output. Мериме на eval set. Одлучуваме: API или self-hosted, кој модел, каков prompt.

03

Продукција (3-6 недели)

Wrap со retries, fallbacks, observability, cost контроли (token budgets, rate limits). Wire во вашиот производ.

04

Итерирај

AI функциите треба постојан eval како што моделите се менуваат. Месечен retainer или закажан квартален tune-up.

Од наше производство

Merot Finance AI асистент

Anthropic Claude интегриран за bank-statement matching, journal-entry предлози и month-close review.

Merot Leads scoring

Claude за product-fit scoring на enrichment + outreach drafts. Custom prompt + structured-output extraction.

Invoice OCR pipeline

Multi-stage extraction: OCR → LLM structured output → human-review queue за low-confidence ставки.

Модел на ангажман

AI прототип: $10-30K (1-2 недели, working demo + eval set + decision memo за 'should we ship'). Продукциска AI функција: $30-100K во зависност од scope. Embedded AI инженер: месечен retainer. Транспарентни сме за model costs — API token spend се фактурира одделно врз engineering fee.

Често поставувани прашања — AI + ML

Дали да користам OpenAI, Anthropic, или self-host?

По основ: започнете со Anthropic (Claude 3.5 Sonnet / Claude 4) или OpenAI (GPT-4 family) за прототип. Префрлете се на self-hosted само кога (a) data residency бара тоа, или (b) per-call цената ја надминува engineering+infra цена на самостојно водење. Повеќето клиенти остануваат на API даватели со години.

Дали моите податоци ќе тренираат нечиј модел?

Не на enterprise tier-ите на OpenAI / Anthropic / Google — тие имаат експлицитни no-training-on-customer-data услови. Ги вклучуваме тие settings за време на onboarding.

Што ако AI hallucinates / произведе погрешен output?

Два слоја: (1) Eval harness — мериме correctness на labelled test set пред shipping и повторно при секоја prompt промена. (2) Продукција — high-confidence outputs одат директно; low-confidence outputs одат на human-review queue.

Цена — нема ли ова да стане скапо?

Честа грижа, често преувеличена. Token costs паднаа 90%+ за 18 месеци. Повеќето продукциски функции чинат <$1K/месец во API spend при значаен traffic. Поставуваме hard token budgets + alerts за да фатиме runaway calls.

Дали правите fine-tuning?

Понекогаш — обично само кога prompt пристап навистина не може да стигне таму. Fine-tuning има повисока up-front цена (куратирање на training data) и re-tuning одржување при секој model upgrade. Типично прво препорачуваме подобри prompts + RAG.

Privacy / само on-premises — дали тоа можете?

Да. Deployed сме Llama 3 70B и Mixtral 8x22B on-premise (single-GPU H100 или 4xA100 setups) за клиенти во регулирани индустрии. Повисока up-front цена, пониска per-call цена, целосен data residency.

AI агенти — дали се ова реални веќе?

Внимателно да. Single-purpose агенти (закажи состанок, draft email, run SQL query) работат добро со соодветни guardrails. Генерички 'do anything' агенти се сè уште flaky. По основ scope-ираме на single-purpose.

Voice / speech?

Whisper за speech-to-text, ElevenLabs / OpenAI TTS за синтеза. Изградивме call-summary + voice-note transcription функции за клиенти во legal + healthcare вертикали.

Да го дефинираме вашиот AI + ML проект

Бесплатен 60-минутен разговор. Шест-страничен план за 48 часа.

Контакт

Кажете ни што градите.

Одговор во работно време.

Без spam.Директно до Merot тимот.