面试问答
发表于|更新于|面试准备
|浏览量:
文章作者: azuki
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 很多时候不懂事!
公告
This is my Blog
目录
- 1. 华厦
- 2. 萌译
- 2.1. 你为什么选择把模型放到端侧跑,而不是调用云端 API?
- 2.2. 你提到了 INT8 量化,能简单说说你是怎么做的吗?量化后精度有下降吗?
- 2.3. 在这个项目中,你遇到的最大技术难点是什么?
- 2.4. 请问你使用的是 PTQ(训练后量化)还是 QAT(量化感知训练)?具体是动态量化还是静态量化?为什么在端侧翻译场景下这样选择?
- 2.5. INT8 量化的核心公式是什么?什么是 scale 和 zero_point?对称量化和非对称量化有什么区别?
- 2.6. NLLB 是一个典型的 Encoder-Decoder 架构。当你把它导出为 ONNX 时,是导成了一个单文件吗?在自回归生成(Autoregressive Decoding)时,你是如何优化推理速度的?
- 2.7. 你简历里写’减少了近 40% 的模型大小’,INT8 理论上应该把 FP32 压缩到 1/4(75%),为什么你只减少了 40%?
- 3. 毕设
- 3.1. 你简历里写了“检索增强”,但为什么没有看到你用向量知识库(Vector DB)?
- 3.2. 目前的模型参数越来越大,有时候直接将问题发送给这种大模型就可以获得很好的回答,现在对7B这种小参数量的模型微调还有意义吗?
- 3.3. 你为什么用 Qwen-Turbo 做摘要,而不是直接把新闻喂给微调后的 Qwen2.5-7B?
- 3.4. 你的 LoRA 微调具体是怎么做的?有没有遇到什么困难(灾难性遗忘)?
- 3.5. 你在项目中使用了 LORA 技术对 Qwen2.5-7B 进行了微调 ,能不能从数学或者原理层面解释一下 LoRA 是怎么工作的?相比于全量微调(Full Fine-tuning)和 P-Tuning,它有什么优势?
- 3.6. 为什么选择 Qwen2.5-7B?它的底层模型架构(如 RoPE 旋转位置编码、SwiGLU 激活函数、RMSNorm 等)相比于传统的标准 Transformer 有哪些具体改进?
- 4. 温度T和softmax有什么关系?
- 5. 在Attention 机制中, Scaled Dot-Product Attention 的计算公式是什么?公式中为什么要除以根号下dk?
- 6. 多头注意力机制
- 7. 显存计算
- 8. 大模型架构分类
- 9. SFT与RLHF
- 10. 目前如何使用vibe coding?有没有遇到什么问题?怎么解决的?