AI + ML
Интегрираме AI во business софтвер — RAG (retrieval-augmented generation) врз вашите податоци, AI агенти кои вршат real акции, structured-output extraction од PDFs / forms / emails, classification + scoring pipelines. Нашите внатрешни use cases вклучуваат Merot Finance AI bookkeeping assistant, lead scoring во Merot Leads и invoice OCR.
Конкретни резултати
- RAG врз вашата knowledge base — внатрешни docs / Notion / Confluence / Slack архиви → searchable AI асистент.
- Structured extraction од документи — фактури, договори, форми, expense reports. JSON output што можете да го store во вашата DB.
- AI агенти кои вршат акции — закажуваат состаноци, пишуваат emails, run database queries, post на Slack.
- Classification + scoring — lead scoring, fraud detection, sentiment, content moderation.
- Embeddings + search — семантичка пребарувачка врз вашиот product catalog, support тикети, code repository.
- On-premises model serving — кога data privacy значи дека cloud APIs се off-limits. Llama 3, Mixtral, fine-tuned помали модели.
Со што работиме
Избираме што одговара на вашиот тим. Не наметнуваме наши преференции.
API providers
OpenAI · Anthropic Claude · Google Gemini · Mistral AI · Cohere
Frameworks
LangChain (sometimes) · LlamaIndex · Vercel AI SDK · Anthropic SDK · OpenAI SDK
Vector databases
pgvector (Postgres) · Pinecone · Qdrant · Weaviate · Chroma
Self-hosted models
Llama 3 (8B-70B) · Mistral 7B / Mixtral 8x7B · Whisper (speech-to-text) · Stable Diffusion (image)
Inference infra
AWS Bedrock · Replicate · Together AI · self-hosted via vLLM / TGI
Eval + observability
LangSmith · Helicone · OpenAI usage dashboards · custom eval harnesses
Како работиме
Discovery (1 недела)
Дефинирај го use case јасно: каков input → каков output. Пишуваме evals однапред за да знаеме што значи 'working'.
Прототип (1-2 недели)
Најмал можен LLM call што го произведува саканиот output. Мериме на eval set. Одлучуваме: API или self-hosted, кој модел, каков prompt.
Продукција (3-6 недели)
Wrap со retries, fallbacks, observability, cost контроли (token budgets, rate limits). Wire во вашиот производ.
Итерирај
AI функциите треба постојан eval како што моделите се менуваат. Месечен retainer или закажан квартален tune-up.
Од наше производство
Merot Finance AI асистент
Anthropic Claude интегриран за bank-statement matching, journal-entry предлози и month-close review.
Merot Leads scoring
Claude за product-fit scoring на enrichment + outreach drafts. Custom prompt + structured-output extraction.
Invoice OCR pipeline
Multi-stage extraction: OCR → LLM structured output → human-review queue за low-confidence ставки.
Од каде доаѓаат овие инженери
Директна EOR вработувачка во два пазари, советување за вработување во уште четири.
Сениор инженери од Северна Македонија
Дома на Merot — најдлабок пул. ~30.000 ИТ професионалци. Директен EOR преку MEROT DOOEL Скопје.
Работно право + плата детали →Инженери од Косово
Најмлада популација во Европа, EUR валута (без FX ризик). Директен EOR преку MEROT L.L.C. Приштина.
Работно право + плата детали →Плус 4 советодавни пазари
Албанија, Србија, Бугарија, Црна Гора — советување за вработување + проверени локални payroll партнери. Видете го целиот outsourcing landing за trade-offs.
Outsourcing landing →Модел на ангажман
Често поставувани прашања — AI + ML
Дали да користам OpenAI, Anthropic, или self-host?
По основ: започнете со Anthropic (Claude 3.5 Sonnet / Claude 4) или OpenAI (GPT-4 family) за прототип. Префрлете се на self-hosted само кога (a) data residency бара тоа, или (b) per-call цената ја надминува engineering+infra цена на самостојно водење. Повеќето клиенти остануваат на API даватели со години.
Дали моите податоци ќе тренираат нечиј модел?
Не на enterprise tier-ите на OpenAI / Anthropic / Google — тие имаат експлицитни no-training-on-customer-data услови. Ги вклучуваме тие settings за време на onboarding.
Што ако AI hallucinates / произведе погрешен output?
Два слоја: (1) Eval harness — мериме correctness на labelled test set пред shipping и повторно при секоја prompt промена. (2) Продукција — high-confidence outputs одат директно; low-confidence outputs одат на human-review queue.
Цена — нема ли ова да стане скапо?
Честа грижа, често преувеличена. Token costs паднаа 90%+ за 18 месеци. Повеќето продукциски функции чинат <$1K/месец во API spend при значаен traffic. Поставуваме hard token budgets + alerts за да фатиме runaway calls.
Дали правите fine-tuning?
Понекогаш — обично само кога prompt пристап навистина не може да стигне таму. Fine-tuning има повисока up-front цена (куратирање на training data) и re-tuning одржување при секој model upgrade. Типично прво препорачуваме подобри prompts + RAG.
Privacy / само on-premises — дали тоа можете?
Да. Deployed сме Llama 3 70B и Mixtral 8x22B on-premise (single-GPU H100 или 4xA100 setups) за клиенти во регулирани индустрии. Повисока up-front цена, пониска per-call цена, целосен data residency.
AI агенти — дали се ова реални веќе?
Внимателно да. Single-purpose агенти (закажи состанок, draft email, run SQL query) работат добро со соодветни guardrails. Генерички 'do anything' агенти се сè уште flaky. По основ scope-ираме на single-purpose.
Voice / speech?
Whisper за speech-to-text, ElevenLabs / OpenAI TTS за синтеза. Изградивме call-summary + voice-note transcription функции за клиенти во legal + healthcare вертикали.
Да го дефинираме вашиот AI + ML проект
Бесплатен 60-минутен разговор. Шест-страничен план за 48 часа.