跟 self 架构 扎稳大型语言模型 机制 预售 LLM attention GPT NVIDIA 外图台版 Transformer 基础 seq2seq 学