11 KiB
Büyük Dil Modelleri için ince ayar veri setleri oluşturmak için güçlü bir araç
Özellikler • Hızlı Başlangıç • Dokümantasyon • Katkıda Bulunma • Lisans
Bu projeyi beğendiyseniz, lütfen bir Yıldız⭐️ verin veya yazara bir kahve ısmarlayın => Bağış ❤️!
Genel Bakış
Easy Dataset, Büyük Dil Modelleri (LLM'ler) için özel olarak tasarlanmış ince ayar veri setleri oluşturmak için bir uygulamadır. Alana özgü dosyaları yüklemek, içeriği akıllıca bölmek, sorular oluşturmak ve model ince ayarı için yüksek kaliteli eğitim verileri üretmek için sezgisel bir arayüz sağlar.
Easy Dataset ile alan bilgisini yapılandırılmış veri setlerine dönüştürebilir, OpenAI formatını takip eden tüm LLM API'leriyle uyumlu çalışabilir ve ince ayar sürecini basit ve verimli hale getirebilirsiniz.
Özellikler
- Akıllı Belge İşleme: PDF, Markdown, DOCX dahil birden fazla formatın akıllı tanınması ve işlenmesi desteği
- Akıllı Metin Bölme: Birden fazla akıllı metin bölme algoritması ve özelleştirilebilir görsel segmentasyon desteği
- Akıllı Soru Üretimi: Her metin bölümünden ilgili soruları çıkarır
- Alan Etiketleri: Veri setleri için global alan etiketlerini akıllıca oluşturur, küresel anlama yeteneklerine sahiptir
- Cevap Üretimi: Kapsamlı cevaplar ve Düşünce Zinciri (COT) oluşturmak için LLM API kullanır
- Esnek Düzenleme: Sürecin herhangi bir aşamasında soruları, cevapları ve veri setlerini düzenleyin
- Çoklu Dışa Aktarma Formatları: Veri setlerini çeşitli formatlarda (Alpaca, ShareGPT, çok dilli düşünme) ve dosya türlerinde (JSON, JSONL) dışa aktarın
- Geniş Model Desteği: OpenAI formatını takip eden tüm LLM API'leriyle uyumlu
- Tam Türkçe Dil Desteği: Tüm arayüz ve AI işlemleri için eksiksiz Türkçe çeviriler 🇹🇷
- Kullanıcı Dostu Arayüz: Hem teknik hem de teknik olmayan kullanıcılar için tasarlanmış sezgisel kullanıcı arayüzü
- Özel Sistem İstemleri: Model yanıtlarını yönlendirmek için özel sistem istemleri ekleyin
Hızlı Demo
https://github.com/user-attachments/assets/6ddb1225-3d1b-4695-90cd-aa4cb01376a8
Yerel Çalıştırma
İstemciyi İndirin
| Windows | MacOS | Linux | |
Setup.exe |
Intel |
M |
AppImage |
NPM ile Kurulum
npm install
npm run db:push
npm run dev
Docker ile Kurulum
docker-compose up -d
Ardından http://localhost:1717 adresine gidin.
Desteklenen AI Sağlayıcıları
Easy Dataset, aşağıdakiler dahil olmak üzere birden fazla AI sağlayıcısını destekler:
- OpenAI: GPT-4, GPT-3.5-turbo ve diğer modeller
- Ollama: Yerel model çalıştırma
- 智谱AI (GLM): Çince modeller
- OpenRouter: Çoklu model aggregatör
- Özel API Uç Noktaları: OpenAI formatını takip eden herhangi bir API
Proje Yapısı
easy-dataset/
├── app/ # Next.js uygulama yönlendiricisi
│ ├── api/ # API rotaları
│ ├── projects/ # Proje sayfaları
│ └── dataset-square/ # Veri seti galerisi
├── components/ # React bileşenleri
├── lib/ # Temel kütüphaneler
│ ├── llm/ # LLM entegrasyonu
│ ├── db/ # Veritabanı erişimi
│ ├── file/ # Dosya işleme
│ └── services/ # İş mantığı
├── locales/ # i18n çevirileri
│ ├── en/ # İngilizce
│ ├── zh-CN/ # Basitleştirilmiş Çince
│ └── tr/ # Türkçe
├── prisma/ # Veritabanı şeması
└── electron/ # Electron masaüstü uygulaması
Kullanım Rehberi
1. Proje Oluşturma
İlk olarak, yeni bir proje oluşturun ve proje adını, açıklamasını ve diğer temel bilgileri yapılandırın.
2. Dosya Yükleme
Alana özgü belgelerinizi yükleyin. Desteklenen formatlar:
- Markdown (.md)
- Microsoft Word (.docx)
- EPUB
- Düz metin (.txt)
3. Metin Bölme
Dosyalar aşağıdaki yöntemlerle akıllıca bölünebilir:
- Doğal dil işleme tabanlı semantik bölme
- Özel ayırıcılara dayalı bölme
- Karakter sayısına dayalı sabit boyutlu bölme
- Manuel görsel bölme
4. Alan Etiketleri Oluşturma
Sistem, belge içeriğine dayalı olarak otomatik olarak hiyerarşik alan etiketleri oluşturabilir ve iki seviyeyi destekler.
5. Soru Üretimi
Her metin bloğu için sistem:
- İçeriğe dayalı alakalı sorular oluşturur
- Tür ve hedef kitle perspektifi sorgulamayı destekler
- Soru sayısını özelleştirme seçeneği sunar
6. Cevap Üretimi
Yapılandırılmış LLM API'si kullanarak:
- Her soru için kapsamlı cevaplar oluşturur
- Düşünce Zinciri (COT) üretimini destekler
- Farklı cevap şablonları destekler
7. Veri Seti Dışa Aktarma
Veri setinizi çeşitli formatlarda dışa aktarın:
- Alpaca Format: Basit talimat-takip formatı
- ShareGPT Format: Çok turlu konuşma formatı
- Çok Dilli Düşünme: COT ile genişletilmiş format
- Özel Format: Kendi JSON yapınızı tanımlayın
Dışa aktarma hedefleri:
- Yerel dosya sistemi
- Hugging Face Hub
- LLaMA Factory uyumluluğu
Gelişmiş Özellikler
Veri Damıtma
Mevcut veri setlerinden yeni eğitim örnekleri oluşturun:
- Soru damıtma: Mevcut soru-cevap çiftlerinden yeni sorular oluşturun
- Etiket damıtma: Otomatik etiket ve kategorizasyon oluşturma
Tür-Hedef Kitle (GA) Çiftleri
Spesifik içerik stilleri ve hedef kitleler için veri setlerini uyarlayın:
- Tür: Akademik, teknik, yaratıcı yazma, vb.
- Hedef Kitle: Yeni başlayanlar, uzmanlar, öğrenciler, vb.
Toplu İşlemler
Birden fazla öğeye verimli bir şekilde işlem:
- Toplu soru üretimi
- Toplu cevap üretimi
- Toplu veri seti dışa aktarma
Görev Yönetimi
Tüm arka plan görevlerini izleyin ve yönetin:
- Dosya işleme görevleri
- Soru üretim görevleri
- Cevap üretim görevleri
- Dışa aktarma görevleri
Yapılandırma
LLM API Yapılandırması
Ayarlar sayfasında LLM API'nizi yapılandırın:
- Sağlayıcı: OpenAI, Ollama, 智谱AI veya özel seçin
- API Anahtarı: API anahtarınızı girin (gerekirse)
- Model: Kullanılacak modeli seçin
- Temel URL: Özel API'ler için temel URL'yi ayarlayın
Görev Ayarları
Görev yürütme parametrelerini özelleştirin:
- Soru üretimi için eşzamanlılık
- Cevap üretimi için eşzamanlılık
- Varsayılan soru sayısı
- Varsayılan cevap şablonu
Özel İstemler
Her görev türü için özel sistem istemleri ekleyin:
- Soru üretim istemi
- Cevap üretim istemi
- Etiket üretim istemi
- Damıtma istemi
Katkıda Bulunma
Katkılara hoş geldiniz! Lütfen şu adımları izleyin:
- Repo'yu fork edin
- Bir özellik dalı oluşturun (
git checkout -b feature/amazing-feature) - Değişikliklerinizi commit edin (
git commit -m 'Add some amazing feature') - Dala push edin (
git push origin feature/amazing-feature) - Bir Pull Request açın
Lisans
Bu proje AGPL-3.0 Lisansı altında lisanslanmıştır. Detaylar için LICENSE dosyasına bakın.
İletişim
- GitHub Issues: Yeni bir sorun oluşturun
- Email: lhj19950927@gmail.com
- WeChat Grubu: README'deki QR koduna bakın
Alıntı
Bu aracı araştırmanızda kullanırsanız, lütfen şu şekilde alıntı yapın:
@misc{easy-dataset-2025,
title={Easy Dataset: A Tool for Creating Fine-tuning Datasets for Large Language Models},
author={Conard Li},
year={2025},
publisher={GitHub},
howpublished={\url{https://github.com/ConardLi/easy-dataset}}
}
Teşekkürler
Bu proje aşağıdaki harika açık kaynak projelerini kullanır:

