|
batch_size
*
|
|
[1, 64]
|
单步训练样本数量,数值越大训练速度越快,但显存占用越高 |
|
learning_rate
*
|
|
[0.000001, 1]
|
模型参数更新步长,过大可能导致训练不稳定,过小收敛速度慢 |
|
n_epochs
*
|
|
[1, 100]
|
完整遍历训练数据集的次数,建议设置在1-10之间 |
|
save_steps
*
|
|
[10, 10000]
|
每训练多少步进行一次模型保存,建议设置为100的倍数 |
|
lr_scheduler_type
|
|
3种可选
|
学习率变化策略,cosine为余弦退火,linear为线性下降,constant为保持不变 |
|
max_length
*
|
|
[64, 4096]
|
单条训练数据的最大token数,超出部分将被截断 |
|
warmup_ratio
|
|
[0, 1]
|
学习率预热步数占总步数的比例,设置为0则不预热 |
|
weight_decay
|
|
[0, 1]
|
防止过拟合的正则化技术,值越大对模型参数约束越强 |
|
lora_alpha
*
|
|
4种可选
|
LoRA缩放系数,用于控制低秩适配矩阵的权重,影响模型对微调数据的敏感度 |
|
lora_dropout
|
|
[0, 1]
|
LoRA层 dropout 概率,在低秩适配矩阵中随机丢弃部分神经元以防止过拟合 |
|
lora_rank
*
|
|
4种可选
|
LoRA低秩矩阵的秩,值越大表示低秩矩阵的维度越高,微调能力越强 |