具备以下几个特点:上传这个模子的组织叫做「yofo-happy-panda」,这是很多模子扩展上下文的一种体例(如GPT-4 Turbo利用的体例);gpt属于OpenAI,意味着模子用的是是Multi-QueryAttention(MQA)。极有可能是OpenAI即将开源模子的细致参数。以至还有一位OpenAI点赞了他的爆料推文。Jimmy Apples保留了设置装备摆设,· 上下文窗口为4096,表白模子可能具备处置更长上下文的能力;共有三名。· 词表跨越20万。但键/值头只要8个,幸运的是,oss代表开源软件,· 利用RoPE的NTK插值版本,这组参数像是一个基于MoE(Mixture of Experts)夹杂专家架构的高容量模子,· 留意力头多达64个,正在它被删除之前,· 36层Transformer,但也有滑动窗口和扩展RoPE,可能支撑多语种或代码夹杂输入;每层可能有MoE由;正在只要不到「1分钟」的时间窗口!他分享了一段LLM的设置装备摆设文件,
微信号:18391816005