RAG Nedir? Şirket İçi Belgeleri AI'ya Bağlama Rehberi

Web Görsel
RAG Nedir, Neden Gerekli?
LLM''ler eğitim verilerindeki bilgiyi bilir, sizin şirket kılavuzunuzu bilmez. RAG — Retrieval-Augmented Generation — kullanıcı sorusu geldiğinde önce şirket belgelerinden ilgili parçaları getirir, sonra LLM''e "bu belgeler ışığında cevapla" der. İnce ayar (fine-tuning) yapmadan güncel bilgiyle çalışan AI kurarsınız.
Tipik Kullanım Senaryoları
- İç yardım masası: insan kaynakları politikaları, IT yönergeleri
- Müşteri destek: ürün kılavuzları, SSS, sözleşmeler
- Satış desteği: ürün teknik bilgileri, rakip karşılaştırması, fiyat listesi
- Hukuk ve regülasyon: mevzuat, içtihat arama
Mimari: 6 Bileşen
- Belge ingestion: PDF, DOCX, Markdown, SharePoint, Notion, Google Drive''dan içerik çekme
- Chunking (parçalama): Belgeleri 200-800 token''lık anlamlı parçalara bölme
- Embedding: Her parça vektöre dönüştürülür (OpenAI text-embedding-3, Cohere, BGE-M3)
- Vektör veritabanı: Postgres + pgvector, Qdrant, Weaviate
- Retrieval: Soru embed edilir, en yakın N parça bulunur
- Generation: LLM''e "şu parçaları kullanarak cevapla" promptu
Kaliteli RAG için 7 Kural
- Hibrit arama: Sadece semantik değil, anahtar kelime (BM25) + semantik birleşimi
- Re-ranking: İlk 20 sonucu Cohere Rerank ile 5''e indir
- Chunk bağlamı: Her parçaya başlık + önceki paragraf özeti ekle
- Metadata filtreleme: Departman, tarih, erişim yetkisi ile ön eleme
- Kaynak gösterme: Cevabın yanında hangi belgeden geldiği — güven için kritik
- "Bilmiyorum" izni: LLM''e belge yoksa uydurma, "kaynak bulamadım" de talimatı
- Evaluation pipeline: 100 soru-cevap altın seti, her değişiklikte regresyon testi
Pratik Stack Önerisi (KOBİ ölçeği)
- Embedding: OpenAI text-embedding-3-small (ucuz, Türkçe iyi)
- Vektör DB: PostgreSQL + pgvector (ayrı servis gerektirmez)
- LLM: Claude Haiku veya GPT-4o-mini
- Framework: LangChain veya LlamaIndex — ya da kendi 200 satırlık implementasyonunuz
- Frontend: Next.js + streaming response
Güvenlik ve Yetki
RAG''in en sık hatası: her kullanıcıya tüm belgelere erişim vermek. Çözüm: her chunk''a acl metadata''sı ekleyin, retrieval sırasında kullanıcı rolüne göre filtreleyin. Yöneticiler maaş politikasını görsün, herkes görmesin.
Maliyet
10.000 sayfalık kurumsal belge için ilk indeksleme ~200 TL. Aylık 5.000 soru için LLM + embedding toplam ~1.500-3.000 TL. Ekip zaman tasarrufu genelde bunun 20-50 katı.
Özetle
RAG, kurumsal AI''nın en hızlı değer üreten uygulaması. Fine-tuning''den ucuz, güncel, denetlenebilir. RAG sistemi kurmak için iletişim.
Hybrid Arama: BM25 + Semantik Detaylı
Sadece embedding tabanlı arama bazı sorgularda yetersiz. Örneğin müşteri "SKU-4782-A" kodu sorduğunda semantik embedding bunu yakalamaz; BM25 (kelime bazlı) yakalar. Hibrit:
- BM25 ile ilk 50 sonuç
- Embedding benzerliği ile ilk 50 sonuç
- RRF (Reciprocal Rank Fusion) ile birleştir
- Cohere Rerank veya cross-encoder ile ilk 5''e indir
Chunk Stratejileri — Hangi Boyut?
| Chunk Tipi | Boyut | Kullanım |
|---|---|---|
| Küçük | 100-300 token | Kesin cevaplı FAQ, kısa tanımlar |
| Orta | 300-800 token | Teknik doküman paragrafları — en yaygın |
| Büyük | 800-1500 token | Uzun bağlam gerektiren hikaye/kılavuz |
| Sayfa tabanlı | PDF sayfası | Yasal, tablo ağırlıklı |
Değerlendirme (Evaluation) Seti
RAG''in en sık atlanan adımı. Her RAG sisteminde olması gereken:
- 100 altın soru-cevap çifti (insan tarafından etiketlenmiş)
- Otomatik metric: retrieval precision@5, recall@10
- LLM-as-judge: cevap kalitesi 1-5 puan
- Regresyon: her model/prompt değişikliğinde aynı set
- Production log''dan yeni zor sorular ekleme (feedback loop)
Sıkça Sorulan Sorular
pgvector vs özel vektör DB hangisi?
< 10 milyon chunk için pgvector yeterli ve ek operasyonel yük yok. > 10M veya yüksek QPS için Qdrant/Weaviate önerilir.
Çoklu dil RAG için ne yapmalı?
Multilingual embedding (Cohere embed-multilingual-v3 veya BGE-M3) + dile göre BM25 tokenizer.
Yorumlar (0)
Bu konuda yardima mi ihtiyaciniz var?
Ekibimiz, projenize en uygun cozumleri sunmak icin hazir.
Iletisime Gecin