# 实习面试记录

# 百川智能LLM应用

# 9.14 一面

  • 自我介绍:为什么对LLM感兴趣,对LLM有多少了解?
  • 项目经历:论文核心创新点,为什么LLM在这个场景下相较于Bert有优势
  • Encoder-decoder、Encode-only和Decoder-only架构的区别与优势
  • RAG的技术手段
  • 如何对RAG检索到的文档选优?
  • 模型无法有效利用RAG检索到的文件该怎么办?
  • 代码手撕:多头注意力
  • GCN、GAT的基本思想?
  • GAT和自注意力机制的联系?

# 美团基座LLM

# 9.19 一面

  • 自我介绍
  • 项目经历
    • 论文核心创新点
    • 用了多少数据进行训练?
    • 这些数据是怎么获取的?
    • 用的什么模型?多大的模型?为什么用这个模型?
    • 为什么不选用QWen、BaiChuan、GLM-4等大模型?
    • 抽取出的特征是手动预设的还是自动抽取的?
    • 在同一场景下需不需要进行特征对齐,也就是规定哪个位置必须是什么属性?比如第一个位置必须是名字,第二个位置必须是年龄?
    • 你的项目有没有微调大模型?为什么要微调?
    • SFT前后,特征能正确对齐吗?
    • 对于亚马逊的爬虫网页信息来说,有哪些内容是可以用来哺育大模型的?
    • 如果有1T级别的数据,怎么选取出1M级别适合大模型训练的数据?
  • 目前有接触到哪些RAG的科研?
  • 这些科研落地了吗?
  • 了解o1吗?o1-mini和o1相较于GPT-4做了哪些改进?
  • 你对o1的逻辑计算能力是怎么看待的?
  • 多智能体协调会遇到什么问题?
  • 智能体是怎么样调用工具的?
  • LlaMA-2和LlaMA-3的差异?(训练数据差异,模型结构差异,适合任务差异)
  • Mistral-7B和LlaMA-3-8B的差异?(训练数据差异,模型结构差异,适合任务差异)
  • 有没有看过开源大模型的技术报告?
  • 代码手撕:K-means
  • 反问环节:
    • 目前贵司在做的是什么大模型?准备用在什么业务上?
    • 您对工业界大模型方向是怎么看的?
    • 您觉得我有哪些地方需要加强学习?
      • 加强对前沿知识、模型的深入理解、多一些实操经验,尤其是研究方向有差异的人如果想从事大模型行业,就需要付出更多的努力。

# 9.23 二面

  • 自我介绍
  • 项目经历
    • LBoost
      • 论文核心创新点
      • 用的什么大模型?
      • 改结构了吗?还是单纯应用?
      • 你觉得大模型的表现另你满意吗?
      • 不满意的原因是什么?你有什么解决办法?
      • 你所说的非结构化信息指的是什么?
      • 你的输入输出是什么?
      • 训练数据用了多少条?
      • 20到50条为什么够了?
      • LoRA的原理?
      • LoRA的权重大概长什么样,大小多大?
      • P-Tuning和Adpater-Tuning的原理?
    • MoE
      • 下游任务是什么?
      • 数据集长什么样?
      • Router是怎么训练的?
      • 为什么要用信息瓶颈?必要性?
      • 互信息是怎么算的?
      • 你还了解哪些RAG评估方式?
      • 专家的能力不同,是你们的假设,还是你们的目的?
      • 你的模型和Mistral-7*8B有什么区别?
      • 你了解正常MoE是怎么训练的吗?
  • 代码手撕:无重复递增列表
  • 反问环节
    • 目前贵司在做的是什么大模型?准备用在什么业务上?
    • GPT-4o可以直接用谷歌上的优质、更新及时的内容做RAG,但国内的平台都越来越封闭反爬,目前可检索到的文章质量可以用Trash来形容,您觉得这个问题怎么解决?
    • 您觉得我有哪些地方需要加强学习?

# 百度LLM应用

# 9.20 一面

  • 自我介绍
  • 项目经历
    • LBoost
      • 用的什么大模型?
      • 改结构了吗?还是单纯应用?
      • 你觉得大模型的表现另你满意吗?
      • 训练数据用了多少条?
      • 你所说的非结构化信息指的是什么?
      • 这样做的必要性?
    • MoE
      • 下游任务是什么?
      • 数据集长什么样?
      • 数据增强阶段做了什么?
      • 你所说的RAG在这个任务中做了什么?
      • RAG的数据是怎么选取的?量有多大?
      • 粗排阶段是在干什么?精排阶段是在干什么?
      • 排序之后要用LLM做什么?
      • 你在这篇文章中负责的是哪部分工作?
      • 什么叫单机多租户?
      • 权重网络是怎么训练的?
      • 信息瓶颈的必要性?
  • LayerNorm、BatchNorm的区别?
  • 这两个Norm方式各适合什么场景?
  • RAG和微调的区别?
  • 什么场景适合RAG?什么场景适合微调?
  • 讲一下自注意力机制
  • 自注意力机制为什么要除以根号d?
  • GCN为什么要左右乘以度矩阵的负二分之一次方?
  • 了解哪些位置编码方式?
  • 讲一下RoPE的核心思想
  • 怎么样优化Prompt?有哪些提问技巧?
  • 代码手撕:最长重复子串
  • 反问环节:
    • 目前贵司在做的是什么大模型?准备用在什么业务上?
    • GPT-4o可以直接用谷歌上的优质、更新及时的内容做RAG,但国内的平台都越来越封闭反爬,目前可检索到的文章质量可以用Trash来形容,您觉得这个问题怎么解决?
    • 您觉得我有哪些地方需要加强学习?

# 二面(咕咕)

Last update in: 9/28/2024, 6:38:59 PM