AI 安全
注意力机制
https://blog.csdn.net/weixin_42110638/article/details/134011134
深度解析注意力机制
https://mp.weixin.qq.com/s/Qlf33S3UkxO8Kui1XfH_Fg
蒸馏算法,使用大模型训练出小模型,大模型在给小模型训练时候会给出正确数据的同时会给出极小概率的其他可能性,比如在识别手写2图片时候,在告诉这个是2的同时会给他0.00001的可能性为3,0.00000001可能性为7,在小模型没有遇到过3,7的情况下也有可能识别出来这个是3,7.这个就可以提高模型泛化,同时由大模型训练出的小模型比单独训练的小模型准确率要好。
对这个方向研究在IDS上的运用。尝试研究。

介绍从text数据转化为token_id的过程,介绍原理。可以直接使用
import tiktoken
tokenizer = tiktoken.get_encoding("gpt2")