mirror of
https://github.com/skindhu/Build-A-Large-Language-Model-CN.git
synced 2026-07-01 01:10:17 +08:00
Update 5.在无标记数据集上进行预训练.md
This commit is contained in:
@@ -328,7 +328,7 @@ neg_avg_log_probas = avg_log_probas * -1
|
||||
print(neg_avg_log_probas)
|
||||
```
|
||||
|
||||
结算的结果为:`tensor(-10.7940)`。
|
||||
结算的结果为:`tensor(10.7940)`。
|
||||
|
||||
这种将负值 -10.7940 转化为正值 10.7940 的操作在深度学习中称为交叉熵损失。
|
||||
|
||||
@@ -1447,4 +1447,4 @@ What makes us want to be on top of that?
|
||||
+ 训练集和验证集的损失可以用来评估 LLM 在训练过程中生成文本的质量。
|
||||
+ 预训练 LLM 的过程就是通过调整模型权重来最小化训练损失。
|
||||
+ LLM 的训练循环是深度学习中的标准流程,通常使用交叉熵损失和 AdamW 优化器。
|
||||
+ 在大规模文本数据集上预训练 LLM 非常耗费时间和资源,因此可以加载 OpenAI 提供的开源预训练权重,作为自行预训练模型的替代方案。
|
||||
+ 在大规模文本数据集上预训练 LLM 非常耗费时间和资源,因此可以加载 OpenAI 提供的开源预训练权重,作为自行预训练模型的替代方案。
|
||||
|
||||
Reference in New Issue
Block a user