AI + ML
Integrojme AI ne softuer biznesi — RAG (retrieval-augmented generation) mbi te dhenat tuaja, agjente AI qe ndermarrin veprime reale, ekstraktim structured-output nga PDF / forma / email, pipeline klasifikimi + scoring. Rastet tona te brendshme te perdorimit perfshijne asistentin AI te kontabilitetit Merot Finance, scoring leads ne Merot Leads dhe OCR faturash.
Rezultate konkrete
- RAG mbi knowledge base-in tuaj — dokumente te brendshme / Notion / Confluence / Slack archives → asistent AI i kerkueshem.
- Ekstraktim i strukturuar nga dokumente — fatura, kontrata, formulare, raporte shpenzimesh. Output JSON qe mund ta ruani ne DB-ne tuaj.
- Agjente AI qe ndermarrin veprime — rezervojne takime, hartojne email, ekzekutojne queries database, postojne ne Slack.
- Klasifikim + scoring — scoring leads, detektim mashtrimi, sentiment, moderim permbajtjeje.
- Embeddings + kerkim — kerkim semantik mbi katalogun tuaj te produktit, tikete mbeshtetjeje, repon e kodit.
- On-premises model serving — kur privacy i te dhenave do te thote qe API cloud jane off-limits. Llama 3, Mixtral, modele me te vegjel fine-tuned.
Me cfare punojme
Zgjedhim cfare i pershtatet ekipit tuaj. Nuk imponojme preferencat tona.
API providers
OpenAI · Anthropic Claude · Google Gemini · Mistral AI · Cohere
Frameworks
LangChain (sometimes) · LlamaIndex · Vercel AI SDK · Anthropic SDK · OpenAI SDK
Vector databases
pgvector (Postgres) · Pinecone · Qdrant · Weaviate · Chroma
Self-hosted models
Llama 3 (8B-70B) · Mistral 7B / Mixtral 8x7B · Whisper (speech-to-text) · Stable Diffusion (image)
Inference infra
AWS Bedrock · Replicate · Together AI · self-hosted via vLLM / TGI
Eval + observability
LangSmith · Helicone · OpenAI usage dashboards · custom eval harnesses
Si punojme
Zbulim (1 jave)
Percakto qarte rastin e perdorimit: cfare input → cfare output. Shkruajme evals qe ne fillim qe te dijme cfare do te thote 'punon'.
Prototip (1-2 jave)
Thirrja me e vogel e mundshme LLM qe prodhon output-in e deshiruar. Masim ne eval set. Vendosim: API apo self-hosted, cili model, cfare prompt.
Prodhim (3-6 jave)
Mbeshtjellim me retries, fallbacks, observability, kontrolle kostoje (buxhete tokens, rate limits). Lidhim ne produktin tuaj.
Iteroj
Funksionet AI kerkojne eval te vazhdueshem ndersa modelet ndryshojne. Retainer mujor ose tune-up tremujor i planifikuar.
Nga prodhimi yne
Asistent AI Merot Finance
Anthropic Claude i integruar per bank-statement matching, sugjerime journal-entry dhe rishikim month-close.
Merot Leads scoring
Claude per scoring product-fit ne enrichment + draft outreach. Prompt i personalizuar + ekstraktim structured-output.
Pipeline OCR faturash
Ekstraktim multi-stage: OCR → LLM structured output → human-review queue per artikuj me besueshmeri te ulet.
Nga vijne keto inxhiniere
Punesim direkt EOR ne dy tregje, keshillim per punesim ne kater te tjere.
Inxhiniere te larte nga Maqedonia e Veriut
Tregu yne i shtepise — burimi me i thelle. ~30,000 profesioniste IT. EOR direkt permes MEROT DOOEL Shkup.
Detaje ligji pune + pagash →Inxhiniere nga Kosova
Popullsia me e re ne Evrope, monedha EUR (pa rrezik FX). EOR direkt permes MEROT L.L.C. Prishtine.
Detaje ligji pune + pagash →Plus 4 tregje keshillimi
Shqiperia, Serbia, Bullgaria, Mali i Zi — keshillim per punesim + partnere lokale te verifikuar pagash. Shihni landing-un e plote outsourcing per trade-offs.
Outsourcing landing →Modeli i angazhimit
Pyetjet me te shpeshta — AI + ML
A duhet te perdor OpenAI, Anthropic, apo self-host?
Si standard: filloni me Anthropic (Claude 3.5 Sonnet / Claude 4) ose OpenAI (GPT-4) per prototipin. Kaloni ne self-hosted vetem kur (a) residency i te dhenave e kerkon, ose (b) kostoja per thirrje tejkalon koston engineering+infra te ekzekutimit vete. Shumica e klienteve qendrojne tek ofruesit API per vite.
A do te trajnojne te dhenat e mia modelin e dikujt?
Jo ne tiers enterprise te OpenAI / Anthropic / Google — kane terma eksplicite no-training-on-customer-data. I aktivizojme keto settings gjate onboarding-ut.
Po nese AI halucinon / prodhon output te gabuar?
Dy shtresa: (1) Eval harness — masim saktesine ne nje test set te etiketuar para lansimit dhe perseri ne cdo ndryshim prompt. (2) Prodhim — output-et me besueshmeri te larte kalojne drejtperdrejt; output-et me besueshmeri te ulet shkojne ne nje human-review queue.
Kostoja — a nuk do te behet kjo e shtrenjte?
Shqetesim i zakonshem, shpesh i ekzagjeruar. Kostot e tokens kane rene 90%+ ne 18 muaj. Shumica e funksioneve ne prodhim kushtojne <$1K/muaj ne shpenzime API ne trafik te konsiderueshem. Vendosim buxhete te ngurta tokens + njoftime per te kapur thirrjet runaway.
A beni fine-tuning?
Ndonjehere — zakonisht vetem kur qasja me prompt vertet nuk arrin atje. Fine-tuning ka kosto me te larte fillestare (kuratim te dhenash trajnimi) dhe mirembajtje re-tuning ne cdo upgrade modeli. Tipikisht rekomandojme prompts me te mira + RAG fillimisht.
Privatesi / vetem on-premises — a mund ta beni?
Po. Kemi deployed Llama 3 70B dhe Mixtral 8x22B on-premise (setups single-GPU H100 ose 4xA100) per kliente ne industri te rregulluara. Kosto fillestare me e larte, kosto per thirrje me e ulet, residency te plote te te dhenave.
Agjente AI — a jane keto reale tashme?
Me kujdes po. Agjentet single-purpose (rezervo nje takim, harto nje email, ekzekuto nje query SQL) funksionojne mire me guardrails te duhura. Agjentet gjenerike 'do anything' jane ende te paqendrueshem. Si standard scopojme tek single-purpose.
Voice / speech?
Whisper per speech-to-text, ElevenLabs / OpenAI TTS per sintetizim. Kemi ndertuar funksione call-summary + transkriptim voice-note per kliente ne vertikalet legal + healthcare.
Le ta percaktojme projektin tuaj — AI + ML
Telefonate 60-minutëshe falas. Plan i shkruar 6-faqesh brenda 48 oresh.