fast.ai.course -> 写完每个章节后面的问题
All about NLP 学习和实践过程中的,与NLP相关的大本营
看三遍
- 1X第一遍,记录下不会的东西
- 1.25X第二遍,做笔记,尽量全部看懂
- 1.5X第三遍,完善笔记,全部弄懂
导师让我搞gpt方向,我该怎么去学? - Uranus的回答 - 知乎
- ChatGPT Plugins体验。不足与提升
- chatwithPDF plugin 卡在图像识别,而且主要是应用模型进行归纳
- edx中文识别问题,找爬虫就找不到,找web crawl就有了,主要用来引流
- wolfram
- 不足与提升:
- 工具型的plugin,如何引流
- 如何做到用户粘性
- 提升chatgpt的体验:更好的适配,能够自动化调用可以使用的plugin,而不是自己知道有哪些plugin然后手动加载
- 提升plugin的体验:如何做到更好的适配,更好的引导用户使用。知道当想要做什么的时候,有哪些plugin可以使用,以及应该怎么用
- LLM做控制的局限,解决办法
- 多模态有哪些思路
- 视觉如何融入
- LLM的输出输入如何审核?风险控制?
- Langchain及原理
- autogpt原理
- 如何突破transformer token限制
- 大语言模型有哪几种架构,哪几种最流行,为什么
- 语言模型自监督有哪几种方法
- prompt设计心得
- 推理阶段有哪些提升chatgpt性能的方法
- ChatGPT, GPT4的应用场景
- 新模型效果与优势
- 计算基本神经网络的参数量rnn, cnn, transformer
- 微调有哪几种方法?解释原理
- adam原理。实现需要哪些依赖,是否有优化空间
- 系统调用是什么?训练神经网络数据传输链路,哪里可以优化?
- attention原理
- LoRA原理
- attention和seq2seq区别
- 梯度下降,随机梯度下降
- 多进程和多线程的区别
- hash表和最小堆原理以及实现
- 排序算法有哪些,解释原理。基于比较的排序算法,理论最快时间复杂度是多少
- 已知随机分布的均值和方差,求使得熵最大的概率分布
- 进程间通信方法?线程间通讯方法
- Java虚拟机简介
- Minimax
- 王小川-五季智能
- 周伯文-衔远科技
- 慧文-光年之外
- 昆仑万维
- hoxi
- 爱诗科技
- 智元机器人
- stability.ai
- softbank
- huggingface
- ,问了一些简历的经历,然后问了transformer相关的比较常见的问题比如MHA,复杂度,BERT/GPT这种。
- 技术上问了大模型训练,transformer相关的内容和过往经历,第二面好像就聊offer了如果没有记错
- 前几轮都是考leetcode为主,问了很少很浅的大模型的内容,记得是其中一面是让手写MHA。最后一轮和主管聊完之后被分配到了框架组的offer,
- 比如模型参数大小,训练一些细节之类的
- 4论面试,2轮带leetcode,然后浅浅问了相关经验,第三轮主要问了大模型的内容,比较标准的问题(transformer,训练,分布式,如何处理训练一些问题比如loss spike啥的)。第四轮是cross面,推荐组的一个大佬,感觉是象征性面试,因为之前做过搜广推问了相关问题,问了probability和脑筋急转弯
- 他家是做框架为主的,一面问了很多框架内容,各种模型切分方式,问的比较深,好像也问了flash-attention的内容,感觉答得还凑合。后来我表达了想做算法端,他们算法那边确实也在招人不过hc不多,二面是算法组的人面的,问的应用端比较多,感觉可能不做基座?然后面挂了。他家在圈子里感觉框架端名声挺大的
- ,一面记得是leetcode+写MHA,感
- 表达了想去模型组,然后面试官应该是和HR交流了,第二组开始就是模型组的人来面试。有没有leetcode不记得了,面试内容也比较中规中矩,transformer,大模型训练这种内容。
- 这家感觉面试问的广度和深度是国内厂面的里边最相关也最专业的。一面是个大佬,之前Kaiming大神一些高引论文的共同作者。一开始问了包括一些基础的大模型训练的内容,transformer架构。然后开始问一些框架端的内容,分布式训练的切割和device之间交流,后面follow-up的问题问了不同device之间communication怎么做,底层communication算法有啥,我答案里有ring-reduce,然后再深入问了reduce底层如何实现,我就不会了。问了会不会用cuda写东西,我说了解很浅。最后给了比较难的leetcode,题目不记得了,没写出来,挂
- 楼主这边背景是做基座预训练算法端为主的,对框架端和RL的内容有一定了解(面试能凑合
- 1.多头注意力,频率太高了。coding轮,概念轮都考。复习的点包括:时间/空间复杂度,优化(kv-cache,MQA,GQA),手写多头代码。各种Norm,这个频率也不低,不过比较标准的内容,没有啥特意要说的,有的考手写,有的考概念和理解(为什么管用)。
- 2. 框架相关内容,各种并行方式,优缺点。DeepSpeed,Megatron可以看看源代码,Flash-Attention等内容。这个点也经常考代码题。
- 3. BERT,GPT等比较主流大模型,一些细节,比如位置编码,训练loss,激活,架构些许不同这种。自回归重点。
- 4. 大模型训练,这个可能主要是工作经验相关,经常问比如训练loss炸掉了,如何解决,一些技巧之类的。面试时有些面试官会问一些很细节的东西,感觉是在确认确实上手跑过基座训练不是吹水。
- 5.数据预处理,BPE,tokenization,mask相关概念和对模型/训练影响,数据配比(有paper)。
- 6. evaluation,如何评估大模型,安全性,有效性,公开数据,个别考过手写eval框架(多选,生成)。
- 7. 根据投的岗位,多模态和RLHF内容可以适当看看。这俩感觉paper挺重要的,也大多研究岗位。楼主也少面了一些自动驾驶,RL啥的,不过结果不咋地。