# 大模型综合业务场景

# LoRA

  • LoRA的超参数有哪些?可训练的参数有哪些?
  • LongLoRA是什么?
  • LoRA的秩通常选为多少?
  • LoRA通常有两种实现方式,分别是怎么实现的?
  • QLoRA是什么?
  • QLoRA的nf4和fp32不能直接转换?为什么中间还有bf16?
  • 讲一下混合精度训练的原理?

# 大模型

  • 扩充LLM上下文的方法
  • 如何让大模型接受更长的文本?
  • 长文本任务上,什么时候需要微调?什么时候不需要?
  • 大模型如何判断该停止生成了?
  • 灾难性遗忘的解决办法(领域知识训练后,通用知识遗忘解决办法)
  • 大模型在SFT时是在学习什么
  • 大模型的训练目标函数
  • 大模型复读机问题的解决办法
  • 大模型幻觉通常有哪些表现?
    • 答非所问
    • 遗忘上下文
    • 偏离事实
  • 大模型幻觉的产生原因
    • 数据质量差
    • 大模型高估了自己的能力,不知道问题边界
    • 关键信息忽视
    • 由于自回归的特性,如果一开始就错了,大模型之后只会将错就错
  • 如何估算大模型训练或推理时,加载后要消耗多少显存?
  • 大模型训练时瓶颈是在哪里?哪部分最耗时?
  • 这些显存都用来存什么?
  • 为什么大模型不擅长逻辑推理和逻辑计算
  • 大模型训练时的最大困难
    • 训练困难
    • 语料污染
    • 幻觉、灾难性遗忘
  • 讲讲你对SFT和RLHF的理解
  • 讲讲DPO、PPO的区别
  • Reward模型了解吗?
  • 除了DPO还有哪些对齐算法?
  • LlaMA的分组查询注意力和Mistral有什么不同?
  • 温度系数为什么可以影响输出?(还有topk、topp)
  • Deepspeed、Peft、vLLM是怎么实现数据并行、模型并行的?
  • MOE最开始时,各个专家结构和参数规模一样吗?
  • Self-Instruct的原理?
  • LLM的prompt构建技巧?
  • mmoe是什么?
  • PEFT微调和优缺点?
  • 介绍一下InstructionGPT
  • 普通模型的Query Fine-tune和SFT有什么区别?
  • GPT4o做了哪些优化加快了推理速度?

# BERT相关

  • BERT、GPT训练时mask该怎么用?
  • GPT4对比GPT3.5的提升主要来自于哪些方面?
  • GPT3.5对比GPT3的提升主要来自于哪些方面?
  • 为什么用BGE?有什么优势?
  • BERT和RoBERTa的区别?
  • BERT的几种Mask的作用是什么?
  • BERT预训练时的损失函数?
  • BERT和ELMo的区别?
  • 文本特征提取器是什么?
  • BERT训练时的Worm-up

# RAG

  • LLM知识如果和RAG冲突该怎么办
  • 长文本LLM和RAG该怎么选择
  • RAG的准确率、召回率怎么计算?
  • 困惑度怎么计算?
  • 多路召回和重排序?
  • Faiss向量库的原理?
  • BLEU的缺点?
  • COS距离和欧氏距离是否同步增减?

# 深度学习

  • PostNorm和PreNorm哪个更好?了解DeepNorm吗?
  • 介绍一下 CLIP 模型?说说你认为 CLIP 为什么会这么强大?
  • 聊一下你知道的推荐系统的深度学习模型?
  • LSTM、GRU的区别?
  • Word2vec是怎么来的?
  • 讲讲Embedding的原理?这些模型通常是怎么训练的?
  • ddim和ddpm的原理?
  • SAM的原理?
  • 激活函数的作用?
  • LayerNorm有哪些形式?
  • SENet和CBAM提出了什么算法?

# 机器学习

  • DBSCAN和KMeans区别?
  • Gradient checkpoints 节省内存的原理是啥?
  • XGBoost只能用于数值的残差估计吗,可否用于特征?
  • XGBoost怎么填充缺失值?
  • 随机森林如何保证每个树的随机性(数据、特征筛选,先随机筛选特征在取最优的)?

# Transformer

  • Softmax可以并行计算吗?
  • Softmax的指数上溢该怎么解决?
  • 了解加法注意力吗?
  • 讲讲Flash-Attention?
  • 讲讲Paged-Attention?
  • Kv-cache是什么?
  • Sparse Attention是什么?
  • Transformer有哪些加速、防止过拟合的手段?
  • RoPE的虚部、实部有什么含义?
  • RoPE是加性编码还是乘性编码?
  • MLA怎么和RoPE结合?
  • 绝对、相对编码的优势和不足?
  • Transformer和Llama的LN、FFN有什么区别
  • 和Seq2Seq的区别
    • 解码方法
    • Viterbi算法
  • 多头注意力机制的好处?
  • 分组注意力机制的好处?
  • Q,K,V的理解
  • 除以平方根的目的
  • Sinusoidal、RoPE、ALiBi
  • 是否了解长度外推与插值
  • Transformer的权重共享
  • Transformer的并行性
  • Transformer和RWKV、RNN、Informer
  • Transformers库的generate接口实现的repetition_penalty存在的问题
  • 为什么初代GPT的性能比BERT差
    • GPT预训练时的任务更难(BERT的base就是为了和GPT对比,参数设定几乎一样)
    • BERT预训练用的数据集大小几乎是GPT的四倍

# 综合问题

  • Scaling-Law是什么?
  • Loss Spike问题的解决办法?
  • 如何把英文大模型转为中文大模型(领域词表扩建、预训练、SFT)
  • 想让模型适应新领域,应该预训练还是微调还是RAG
  • 涌现的原因
  • 前馈层在不同位置的作用?
  • 对多模态模型的理解
  • 多轮对话如何微调?
  • 如何解决多轮对话遗忘前面对话的问题?
  • CLS等标记的作用
  • Llama和GPT预训练时有什么区别?
  • 样本不均衡时该怎么办?
  • Focal loss是什么?

# 手撕代码

  • 假设给你两个链表,如何找到公共节点,只能是Y字型?
  • 元组的元素必须是不可变吗?
  • 讲讲堆排序、优先队列的思想
  • 什么是稳定排序?
  • 平衡二叉树的原理?
  • 如何找到一个数组的中位数?(复杂度N,分治法)
  • 打家劫舍
  • 矩阵置零
  • 跳跃游戏
  • Shuffle数组
  • 手撕BERT+LoRA
  • ndcg、auc、roc怎么算?
  • Louvain算法的核心思想?还知道哪些社区算法?

# 自由问题

  • 对o1、o1-mini是怎么看的?
  • 你认为明年大模型发展的趋势?
  • 你怎么看待我们的团队、公司?有哪些好的、坏的点?
  • 为什么去年openai的chatgpt成功了,但是gpt2和instructgpt没有?
Last update in: 9/23/2024, 6:51:10 PM