YG-Datasets/easy-dataset-main/README.tr.md at da2887d91302ed1cfb1bfa15a77fb2f3790af638

YG-Soft/YG-Datasets

Fork 0

Files

DESKTOP-72TV0V4\caoxiaozhu 4eddf05e79 first-update

2026-03-17 14:36:31 +08:00

11 KiB

Raw Blame History

GitHub Downloads (all assets, all releases)

Büyük Dil Modelleri için ince ayar veri setleri oluşturmak için güçlü bir araç

简体中文 | English | Türkçe

Özellikler • Hızlı Başlangıç • Dokümantasyon • Katkıda Bulunma • Lisans

Bu projeyi beğendiyseniz, lütfen bir Yıldız⭐️ verin veya yazara bir kahve ısmarlayın => Bağış ❤️!

Genel Bakış

Easy Dataset, Büyük Dil Modelleri (LLM'ler) için özel olarak tasarlanmış ince ayar veri setleri oluşturmak için bir uygulamadır. Alana özgü dosyaları yüklemek, içeriği akıllıca bölmek, sorular oluşturmak ve model ince ayarı için yüksek kaliteli eğitim verileri üretmek için sezgisel bir arayüz sağlar.

Easy Dataset ile alan bilgisini yapılandırılmış veri setlerine dönüştürebilir, OpenAI formatını takip eden tüm LLM API'leriyle uyumlu çalışabilir ve ince ayar sürecini basit ve verimli hale getirebilirsiniz.

Özellikler

Akıllı Belge İşleme: PDF, Markdown, DOCX dahil birden fazla formatın akıllı tanınması ve işlenmesi desteği
Akıllı Metin Bölme: Birden fazla akıllı metin bölme algoritması ve özelleştirilebilir görsel segmentasyon desteği
Akıllı Soru Üretimi: Her metin bölümünden ilgili soruları çıkarır
Alan Etiketleri: Veri setleri için global alan etiketlerini akıllıca oluşturur, küresel anlama yeteneklerine sahiptir
Cevap Üretimi: Kapsamlı cevaplar ve Düşünce Zinciri (COT) oluşturmak için LLM API kullanır
Esnek Düzenleme: Sürecin herhangi bir aşamasında soruları, cevapları ve veri setlerini düzenleyin
Çoklu Dışa Aktarma Formatları: Veri setlerini çeşitli formatlarda (Alpaca, ShareGPT, çok dilli düşünme) ve dosya türlerinde (JSON, JSONL) dışa aktarın
Geniş Model Desteği: OpenAI formatını takip eden tüm LLM API'leriyle uyumlu
Tam Türkçe Dil Desteği: Tüm arayüz ve AI işlemleri için eksiksiz Türkçe çeviriler 🇹🇷
Kullanıcı Dostu Arayüz: Hem teknik hem de teknik olmayan kullanıcılar için tasarlanmış sezgisel kullanıcı arayüzü
Özel Sistem İstemleri: Model yanıtlarını yönlendirmek için özel sistem istemleri ekleyin

Hızlı Demo

https://github.com/user-attachments/assets/6ddb1225-3d1b-4695-90cd-aa4cb01376a8

Yerel Çalıştırma

İstemciyi İndirin

Windows	MacOS		Linux
Setup.exe	Intel	M	AppImage

NPM ile Kurulum

npm install
npm run db:push
npm run dev

Docker ile Kurulum

docker-compose up -d

Ardından http://localhost:1717 adresine gidin.

Desteklenen AI Sağlayıcıları

Easy Dataset, aşağıdakiler dahil olmak üzere birden fazla AI sağlayıcısını destekler:

OpenAI: GPT-4, GPT-3.5-turbo ve diğer modeller
Ollama: Yerel model çalıştırma
智谱AI (GLM): Çince modeller
OpenRouter: Çoklu model aggregatör
Özel API Uç Noktaları: OpenAI formatını takip eden herhangi bir API

Proje Yapısı

easy-dataset/
├── app/                    # Next.js uygulama yönlendiricisi
│   ├── api/               # API rotaları
│   ├── projects/          # Proje sayfaları
│   └── dataset-square/    # Veri seti galerisi
├── components/            # React bileşenleri
├── lib/                   # Temel kütüphaneler
│   ├── llm/              # LLM entegrasyonu
│   ├── db/               # Veritabanı erişimi
│   ├── file/             # Dosya işleme
│   └── services/         # İş mantığı
├── locales/              # i18n çevirileri
│   ├── en/              # İngilizce
│   ├── zh-CN/           # Basitleştirilmiş Çince
│   └── tr/              # Türkçe
├── prisma/               # Veritabanı şeması
└── electron/             # Electron masaüstü uygulaması

Kullanım Rehberi

1. Proje Oluşturma

İlk olarak, yeni bir proje oluşturun ve proje adını, açıklamasını ve diğer temel bilgileri yapılandırın.

2. Dosya Yükleme

Alana özgü belgelerinizi yükleyin. Desteklenen formatlar:

PDF
Markdown (.md)
Microsoft Word (.docx)
EPUB
Düz metin (.txt)

3. Metin Bölme

Dosyalar aşağıdaki yöntemlerle akıllıca bölünebilir:

Doğal dil işleme tabanlı semantik bölme
Özel ayırıcılara dayalı bölme
Karakter sayısına dayalı sabit boyutlu bölme
Manuel görsel bölme

4. Alan Etiketleri Oluşturma

Sistem, belge içeriğine dayalı olarak otomatik olarak hiyerarşik alan etiketleri oluşturabilir ve iki seviyeyi destekler.

5. Soru Üretimi

Her metin bloğu için sistem:

İçeriğe dayalı alakalı sorular oluşturur
Tür ve hedef kitle perspektifi sorgulamayı destekler
Soru sayısını özelleştirme seçeneği sunar

6. Cevap Üretimi

Yapılandırılmış LLM API'si kullanarak:

Her soru için kapsamlı cevaplar oluşturur
Düşünce Zinciri (COT) üretimini destekler
Farklı cevap şablonları destekler

7. Veri Seti Dışa Aktarma

Veri setinizi çeşitli formatlarda dışa aktarın:

Alpaca Format: Basit talimat-takip formatı
ShareGPT Format: Çok turlu konuşma formatı
Çok Dilli Düşünme: COT ile genişletilmiş format
Özel Format: Kendi JSON yapınızı tanımlayın

Dışa aktarma hedefleri:

Yerel dosya sistemi
Hugging Face Hub
LLaMA Factory uyumluluğu

Gelişmiş Özellikler

Veri Damıtma

Mevcut veri setlerinden yeni eğitim örnekleri oluşturun:

Soru damıtma: Mevcut soru-cevap çiftlerinden yeni sorular oluşturun
Etiket damıtma: Otomatik etiket ve kategorizasyon oluşturma

Tür-Hedef Kitle (GA) Çiftleri

Spesifik içerik stilleri ve hedef kitleler için veri setlerini uyarlayın:

Tür: Akademik, teknik, yaratıcı yazma, vb.
Hedef Kitle: Yeni başlayanlar, uzmanlar, öğrenciler, vb.

Toplu İşlemler

Birden fazla öğeye verimli bir şekilde işlem:

Toplu soru üretimi
Toplu cevap üretimi
Toplu veri seti dışa aktarma

Görev Yönetimi

Tüm arka plan görevlerini izleyin ve yönetin:

Dosya işleme görevleri
Soru üretim görevleri
Cevap üretim görevleri
Dışa aktarma görevleri

Yapılandırma

LLM API Yapılandırması

Ayarlar sayfasında LLM API'nizi yapılandırın:

Sağlayıcı: OpenAI, Ollama, 智谱AI veya özel seçin
API Anahtarı: API anahtarınızı girin (gerekirse)
Model: Kullanılacak modeli seçin
Temel URL: Özel API'ler için temel URL'yi ayarlayın

Görev Ayarları

Görev yürütme parametrelerini özelleştirin:

Soru üretimi için eşzamanlılık
Cevap üretimi için eşzamanlılık
Varsayılan soru sayısı
Varsayılan cevap şablonu

Özel İstemler

Her görev türü için özel sistem istemleri ekleyin:

Soru üretim istemi
Cevap üretim istemi
Etiket üretim istemi
Damıtma istemi

Katkıda Bulunma

Katkılara hoş geldiniz! Lütfen şu adımları izleyin:

Repo'yu fork edin
Bir özellik dalı oluşturun (git checkout -b feature/amazing-feature)
Değişikliklerinizi commit edin (git commit -m 'Add some amazing feature')
Dala push edin (git push origin feature/amazing-feature)
Bir Pull Request açın

Lisans

Bu proje AGPL-3.0 Lisansı altında lisanslanmıştır. Detaylar için LICENSE dosyasına bakın.

İletişim

GitHub Issues: Yeni bir sorun oluşturun
Email: lhj19950927@gmail.com
WeChat Grubu: README'deki QR koduna bakın

Alıntı

Bu aracı araştırmanızda kullanırsanız, lütfen şu şekilde alıntı yapın:

@misc{easy-dataset-2025,
  title={Easy Dataset: A Tool for Creating Fine-tuning Datasets for Large Language Models},
  author={Conard Li},
  year={2025},
  publisher={GitHub},
  howpublished={\url{https://github.com/ConardLi/easy-dataset}}
}

Teşekkürler

Bu proje aşağıdaki harika açık kaynak projelerini kullanır:

⭐️ Bu projeyi beğendiyseniz, lütfen bir yıldız verin! ⭐️

11 KiB Raw Blame History Unescape Escape