Sherbim

AI + ML

Integrojme AI ne softuer biznesi — RAG (retrieval-augmented generation) mbi te dhenat tuaja, agjente AI qe ndermarrin veprime reale, ekstraktim structured-output nga PDF / forma / email, pipeline klasifikimi + scoring. Rastet tona te brendshme te perdorimit perfshijne asistentin AI te kontabilitetit Merot Finance, scoring leads ne Merot Leads dhe OCR faturash.

Rezultate konkrete

  • RAG mbi knowledge base-in tuaj — dokumente te brendshme / Notion / Confluence / Slack archives → asistent AI i kerkueshem.
  • Ekstraktim i strukturuar nga dokumente — fatura, kontrata, formulare, raporte shpenzimesh. Output JSON qe mund ta ruani ne DB-ne tuaj.
  • Agjente AI qe ndermarrin veprime — rezervojne takime, hartojne email, ekzekutojne queries database, postojne ne Slack.
  • Klasifikim + scoring — scoring leads, detektim mashtrimi, sentiment, moderim permbajtjeje.
  • Embeddings + kerkim — kerkim semantik mbi katalogun tuaj te produktit, tikete mbeshtetjeje, repon e kodit.
  • On-premises model serving — kur privacy i te dhenave do te thote qe API cloud jane off-limits. Llama 3, Mixtral, modele me te vegjel fine-tuned.

Me cfare punojme

Zgjedhim cfare i pershtatet ekipit tuaj. Nuk imponojme preferencat tona.

API providers

OpenAI · Anthropic Claude · Google Gemini · Mistral AI · Cohere

Frameworks

LangChain (sometimes) · LlamaIndex · Vercel AI SDK · Anthropic SDK · OpenAI SDK

Vector databases

pgvector (Postgres) · Pinecone · Qdrant · Weaviate · Chroma

Self-hosted models

Llama 3 (8B-70B) · Mistral 7B / Mixtral 8x7B · Whisper (speech-to-text) · Stable Diffusion (image)

Inference infra

AWS Bedrock · Replicate · Together AI · self-hosted via vLLM / TGI

Eval + observability

LangSmith · Helicone · OpenAI usage dashboards · custom eval harnesses

Si punojme

01

Zbulim (1 jave)

Percakto qarte rastin e perdorimit: cfare input → cfare output. Shkruajme evals qe ne fillim qe te dijme cfare do te thote 'punon'.

02

Prototip (1-2 jave)

Thirrja me e vogel e mundshme LLM qe prodhon output-in e deshiruar. Masim ne eval set. Vendosim: API apo self-hosted, cili model, cfare prompt.

03

Prodhim (3-6 jave)

Mbeshtjellim me retries, fallbacks, observability, kontrolle kostoje (buxhete tokens, rate limits). Lidhim ne produktin tuaj.

04

Iteroj

Funksionet AI kerkojne eval te vazhdueshem ndersa modelet ndryshojne. Retainer mujor ose tune-up tremujor i planifikuar.

Nga prodhimi yne

Asistent AI Merot Finance

Anthropic Claude i integruar per bank-statement matching, sugjerime journal-entry dhe rishikim month-close.

Merot Leads scoring

Claude per scoring product-fit ne enrichment + draft outreach. Prompt i personalizuar + ekstraktim structured-output.

Pipeline OCR faturash

Ekstraktim multi-stage: OCR → LLM structured output → human-review queue per artikuj me besueshmeri te ulet.

Modeli i angazhimit

Prototip AI: $10-30K (1-2 jave, demo qe punon + eval set + memo vendimi 'a duhet ta lansojme'). Funksion AI ne prodhim: $30-100K ne varesi te scope. Inxhinier AI embedded: retainer mujor. Transparente per kostot e modelit — shpenzimi i tokens API faturohet vecmas mbi tarifen e engineering.

Pyetjet me te shpeshta — AI + ML

A duhet te perdor OpenAI, Anthropic, apo self-host?

Si standard: filloni me Anthropic (Claude 3.5 Sonnet / Claude 4) ose OpenAI (GPT-4) per prototipin. Kaloni ne self-hosted vetem kur (a) residency i te dhenave e kerkon, ose (b) kostoja per thirrje tejkalon koston engineering+infra te ekzekutimit vete. Shumica e klienteve qendrojne tek ofruesit API per vite.

A do te trajnojne te dhenat e mia modelin e dikujt?

Jo ne tiers enterprise te OpenAI / Anthropic / Google — kane terma eksplicite no-training-on-customer-data. I aktivizojme keto settings gjate onboarding-ut.

Po nese AI halucinon / prodhon output te gabuar?

Dy shtresa: (1) Eval harness — masim saktesine ne nje test set te etiketuar para lansimit dhe perseri ne cdo ndryshim prompt. (2) Prodhim — output-et me besueshmeri te larte kalojne drejtperdrejt; output-et me besueshmeri te ulet shkojne ne nje human-review queue.

Kostoja — a nuk do te behet kjo e shtrenjte?

Shqetesim i zakonshem, shpesh i ekzagjeruar. Kostot e tokens kane rene 90%+ ne 18 muaj. Shumica e funksioneve ne prodhim kushtojne <$1K/muaj ne shpenzime API ne trafik te konsiderueshem. Vendosim buxhete te ngurta tokens + njoftime per te kapur thirrjet runaway.

A beni fine-tuning?

Ndonjehere — zakonisht vetem kur qasja me prompt vertet nuk arrin atje. Fine-tuning ka kosto me te larte fillestare (kuratim te dhenash trajnimi) dhe mirembajtje re-tuning ne cdo upgrade modeli. Tipikisht rekomandojme prompts me te mira + RAG fillimisht.

Privatesi / vetem on-premises — a mund ta beni?

Po. Kemi deployed Llama 3 70B dhe Mixtral 8x22B on-premise (setups single-GPU H100 ose 4xA100) per kliente ne industri te rregulluara. Kosto fillestare me e larte, kosto per thirrje me e ulet, residency te plote te te dhenave.

Agjente AI — a jane keto reale tashme?

Me kujdes po. Agjentet single-purpose (rezervo nje takim, harto nje email, ekzekuto nje query SQL) funksionojne mire me guardrails te duhura. Agjentet gjenerike 'do anything' jane ende te paqendrueshem. Si standard scopojme tek single-purpose.

Voice / speech?

Whisper per speech-to-text, ElevenLabs / OpenAI TTS per sintetizim. Kemi ndertuar funksione call-summary + transkriptim voice-note per kliente ne vertikalet legal + healthcare.

Le ta percaktojme projektin tuaj — AI + ML

Telefonate 60-minutëshe falas. Plan i shkruar 6-faqesh brenda 48 oresh.

Kontakt

Na tregoni cfare po ndertoni.

Pergjigje gjate orarit.

Pa spam.Direkt te ekipi Merot.