AI 安全

注意力机制

https://blog.csdn.net/weixin_42110638/article/details/134011134

深度解析注意力机制

https://mp.weixin.qq.com/s/Qlf33S3UkxO8Kui1XfH_Fg

蒸馏算法,使用大模型训练出小模型,大模型在给小模型训练时候会给出正确数据的同时会给出极小概率的其他可能性,比如在识别手写2图片时候,在告诉这个是2的同时会给他0.00001的可能性为3,0.00000001可能性为7,在小模型没有遇到过3,7的情况下也有可能识别出来这个是3,7.这个就可以提高模型泛化,同时由大模型训练出的小模型比单独训练的小模型准确率要好。

对这个方向研究在IDS上的运用。尝试研究。

开始

image.png

第2章 Working with Text Data

介绍从text数据转化为token_id的过程,介绍原理。可以直接使用

import tiktoken 
 
tokenizer = tiktoken.get_encoding("gpt2")
  1. 文本到数值向量的转换:LLMs无法直接处理原始文本,因此需要将文本转换为数值向量(嵌入)。嵌入将离散数据(如单词或图像)转换为连续的向量空间,使其适用于神经网络操作。
  2. 分词与标记化:首先,原始文本被分解为标记(tokens),标记可以是单词或字符。然后,这些标记被转换为整数表示,称为标记ID。