找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

算法工程师面经(谷歌/亚马逊/阿里/旷视)

admin 2019-5-11 09:47 235人围观 C++相关

点击上方“CVer”,选择加"星标"或“置顶”

重磅干货,第一时间送达



作者:铭动乾坤

https://www.nowcoder.com/discuss/172693

本文已授权,未经允许,不得二次转载


春招面了:阿里,旷视,亚马逊,谷歌
offer:腾讯IEG机器学习,亚马逊物流团队的SDE

阿里



当时想着报个不热门的北京的报了优酷,结果面完一面就爆优酷裁员了,再就没信了,不管了

一面



30+分钟

自我介绍,还是讲的太快TT

我呼吸声音太大了

CTR 人群提升是否感兴趣?

问解决机器学习的步骤?数据清洗-数据变换-训练模型-评估模型(过拟合欠拟合,PR ROC……)

感觉自己说的太磨叽了,那边一直嗯嗯嗯,感觉我有点唠叨?

特征变换做什么?特征处理? 讲了PCA

假设只是做特征工程呢?比如归一化? 讲了归一化 标准化

有哪些算法需要归一化? 树形不需要

为啥?树形对具体值不敏感?

监督学习  GBDT讲了

GBDT与XGBoost区别

那为什么XGBoost泰勒展开? 不知道

非监督学习有哪些? 介绍了Kmeans

怎么选取K值? 手肘法

如何工程进行选取K值?

说了一个没听过的

介绍LR和SVM的区别 balabala 说起来对偶问题

SVM对偶问题介绍一下 从函数间隔 几何间隔开始介绍的 (还是有点墨迹了)

如何用Spark实现LR?我用的Hadoop

可以,我就从MR的运行讲了,重点不对,人家问的是M R 分别做的LR的哪部分?

M实现数据预处理,R分类?还是调用原有模型啊?是如何用MR如何实现模型

提示优化方式? M求导 R参数迭代

M迭代 R加权

深度学习的激活函数 sigmoid tanh ReLU L-ReLU

CNN了解? 介绍Lenet ? 我忘记 就介绍了Inception v1 v2 v3 ResNet

半监督学习有接触过吗

图论有了解? 社区发现?LPA算法有接触吗? 我说并查集

PageRank有了解?相当于打分?

人群放大的方式?给人群push ,对于点击行为放大,找到更多类似的人?我问是协同过滤吗balabala

AB其他行为都相似,问还是用相似度?用机器学习角度考虑?用分类问题解决?说把点击做正样本,不点击做负样本

问热播的坑位,限制曝光次数,两部电视剧,想让总点击量最大,怎么办?基于兴趣,特征向量人与电视剧匹配。

问要是找不到这么多偏好的人呢? 我说用用户信息 年龄性别

巴拉巴拉介绍整个团队的分工 隶属于集团数据平台

腾讯



当时是日常实习给的offer,当时没去,转成暑假实习offer没面试,简单聊了一下而已,贴过来去年的面经吧,感觉问的答得都挺有借鉴意义的。

一面



自我介绍(还是有点磕磕巴巴

问SQL优化 简历里的有的那句话 扯说加了索引

介绍视网膜分类,迁移学习,为什么用这个

第一部分和第二部分的对比做了吗?图像多少图片?比例是多少

样本少?你怎么解决的?白噪声 opencv中的函数

旋转怎么做的?视网膜检测对于方向不敏感

特征提取怎么做的?DL没做特征提取,说了一下预处理的亮度归一

准确率能到多少?

两个不同思路?VGG改进了什么?(这个问题以后要好好看,结合VGG论文

dropout是怎么调整参数?

问抽样的方式?(这个问题不会

希望负样本少一些怎么做?

抽样怎么做的?扯到bagging

脑电信号项目中 决策树怎么抽样的?除了随机有什么方法

随机抽不会不均匀吗?

情绪分类中CNN比传统的什么区别?

我说精度高一些?

问是否有对决策树调参数

问是今年做的?时间和简历对不上

结果光速打脸 人家查了博客总结 说16年有别的80+%的

一直揪着决策树……问决策树的原理(好好背吧

说了ID3 C4.5 CART 预剪枝 后剪枝

有真实的场景吗?为什么树的深度会影响过拟合

博客上有redis 其他key-value有知道的吗

说了自己想改oj榜单

有实际使用吗?

问啥学呢?

Python研发工程师什么鬼?(该死的牛客简历

整个精度是多少

想改进方向

基于语义,后面问是啥意思

问我是整个图分类的?(当时我就没听明白

这个不是识别嘛?

那我想做识别?fastrcnn yolo

Fastrcnn是啥?(自己挖坑自己跳吧

经常用的语言 py

py中一段文字找匹配ID多少次?答KMP

两个队列 找多少词是重复的 频率是多少

先说了M*N

先排序 时间复杂度 :排序nlogn

用什么排序 py中

sort原理是什么?(我说是快排 好像不对

python sort函数内部实现原理 - 焦***的随笔日记 - 博客园 https://www.cnblogs.com/clement-jiao/p/9243066.html

怎么存重复出现词的频率

问时间复杂度 答:两个指针的是O(m+n)

工作感兴趣的点

什么叫做偏算法的工程

说数据挖掘感兴趣 你做的都是CV啊

算法不局限于CV啊

推荐 NLP不感兴趣

实习时间?实验室不需要出勤吗

就是找工作之前都可以实习吗

问是什么部门?腾讯互动娱乐部门 数据挖掘部门

如果ok 这周会约

二面



问啥啥不会啊 根本不用纠结怎么去商量早实习了 太太太菜了

===================================================

介绍视网膜图像分类(这个项目真的好好看,每次必问!

集成学习都有啥,除了bagging还有什么?

有什么区别?(勉强答上了) stacking忘了

boosting之间有很强的依赖?什么叫做基于上一个分类器,具体讲一下

你说的是adaboost 还有其他boosting的算法吗?

答 梯度提升决策树和adaboost有什么区别?

前者一定是决策树,还有是基于残差进行的训练

什么叫做基于残差的训练?为什么基于残差这么设计?(我就没懂问啥,就是因为基于残差啊……

leaky-ReLU和ReLU的区别?(介绍ReLU拖延时间,

理论上来讲,Leaky ReLU有ReLU的所有优点,外加不会有Dead ReLU问题,但是在实际操作当中,并没有完全证明Leaky ReLU总是好于ReLU。

(我说对了

对这个数据集如何评价的,介绍二次加权Kappa,但是我貌似没介绍二次加权的意思

问脑电信号分类,也用CNN了?提取特征是给CNN的吗?

63*80是什么?

CNN中这个63*80是什么?就相当于是这个图片?用的什么模型?

用的theano?用的tf 然后自己说了v1-v2-v3的区别

接触过hadoop spark?介绍map-reduce的模式?如果有特别多文章,如何用mapreduce处理?

(这个hadoop下周也要开始学了

介绍oj

redis接触过?(估计是看我博客或者上一个面试官写评价这个了 我是不是应该庆幸我博客还没写docker?

LSTM中为什么经常是两层双向LSTM?https://mp.weixin.qq.com/s/0InF2ke1PxhBfqlxIGvKCQ

(为啥是双层的 等我学到那里再说吧

(NLP这个真不熟,门结构都说错了,是输入门,记忆门,输出门

tf或者 theano中如何做到自动求导的构造?

没答上,记得我看过很久以前

tensorflow的函数自动求导是如何实现的? - 知乎 https://www.zhihu.com/question/54554389

三面总监面



确认实习时间 我说一个月之后 实习至少到6月

万年不变的自我介绍(还是说磕磕绊绊的

介绍项目(视网膜图像分类和脑电信号  (所以说 以后要详细的整理项目经历

问为什么用迁移学习(今天回答的第二遍

自己扯出来v1 v2 v3

问脑电信号的背景

问导师是做什么方向的 (其实要是说实验室没人做这个方向是不是显得自己学习能力强?

问现在做的CV也是课题之一?

问传统机器学习都知道啥?监督学习or半监督学习

介绍了一下本科毕设

用了PCA为啥用balabala

说一下SVM(今天回答的第二遍

说一下逻辑回归(这个时候老师进来了,也没搭理老师,师兄说我面试呢

有没有做过推荐?还是不作死说自己没接触过

问了一下本科专业,为啥不学了

平时有钻研过什么吗?用啥学啥吧 最近看论文

问平时玩游戏吗

我坚决否认,发现不对,想起来是IEG,说不怎么玩

毕业方向?互联网?业务领域?

是否排斥游戏,如果需要玩游戏玩吗?玩啊,解释说是自己学业比较忙

问哪里人?深圳是不是远,我说房价稍微低点挺好的

再次确认实习时间

导师没问题?

跟之前面试官在沟通一下……

还是有些慌张,总共20分钟,面试官好像记录的很详细。

HR面



确认是去深圳实习

在什么渠道找的内推?牛客网

之前是否实习过

项目经历DR是导师的项目?

班级有多少人?

哈尔滨人?

父母从事什么工作?

独生子女?

平常除了导师的项目还有别的嘛?学生工作balabala

DR这个项目是偏学术还是偏工程?

大的项目组?人不多,其他人是做web

OJ是啥?

知道自己什么岗位吧?

再次确认深圳?

提问?下一步通知什么时候?

3-5天

你有什么情况?项目交接一个月(你可以和业务沟通),中期答辩

对方欣赏这种把手上工作做完

旷视



挂的特别惨烈

之前发过

一面:



写代码 一个看代码基本功没啥难度,但是还是改了两个地方的题
迪杰斯特拉和prim算法区别
maxpooling滑动窗口做法
sgd是啥
adam和sgd区别
贝叶斯决策是啥
实习做啥了

二面:
项目,实习
两个工程实现
1,实现最大并发数的控制
2,1TB硬盘数据32GB数据排序

亚马逊



面试体验是最好的,面试官循循善诱,不会像谷歌似的觉得自己啥也不会

一面.leader面。



自我介绍,要求着重自己经历比较突出的地方。介绍最得意的项目,刨根问底e.g.数据量训练集测试集验证集占比为啥是60.20.20 再比方说什么东西为啥这么做。有一个数据表可以用联合主键为啥要再建表,有什么优缺点。问在做项目时候,师兄师姐提出建议不合理怎么办?我说的老师建议不合理我后来争取了用thinkphp

写题:给出BST的root.(有left right parent指针)要求实现迭代器类可以有序遍及下一个更大的数(包括begin end next hasnext函数)我最开始说把BST拆成链表或者重新组合数组,问分别的优缺点。面试官倒杯水的时候想到最开始跑到begin然后根据情况判断下一个位置就可以了。(开心终于想对了)hasnext.最开始写恶心了,完全可以不判断next只判断是否是end就可以。然后实现next.写出来左子结点到根节点。后来面试官总结出来了右子树的情况,讲了一下,我代码实现出来了。(后来别人说这个是剑指offer原题……我说咋好像似曾相识

二面:



项目balabala 从0介绍这个项目涉及深度学习的内容

OOD设计手环对象低电量报警的函数,有一个计时器一直调用它。开始以为是返回bool,后来发现返回void就行,判断低电量就执行响应代码就行。以及不能一直报警的功能,我最后说可以有一个flag存储是否报警过,充电之后这个flag清空。

coding类似于拓扑排序的代码,我好像写的不太好。

一个工程题  拿到一堆数据 如何抽样20%并且下一次还是抽样这20%的数据,id最后一位判断最简单。再就是是标志位0.1.2表示没判断,抽样数据,未被抽到数据。 我觉得有一个hash也可以value判断条件,不需要额外空间。而且value唯一

谷歌


一面



给定4个数字,四则运算是否可以得24  就是这个题https://leetcode.com/problems/24-game/

二面



忘记了,反正嗷嗷难

Amazon4.15入职,这十天估计要突击一下Java了QAQ



2019年,找AI算法岗不容易!如果你想了解国内各大公司的面试经验、如何内推、学习路线、知识题库、秋招攻略和Offer如何选择等资料的,欢迎加入2019AI算法岗求职大本营(知识星球)。

2019AI算法岗求职群(知识星球)



本星球不仅面向今年(2020届)找工作的人群(研一/研二/大三等),还面向刚入学或已工作的人群。目前已有超过830+位同学加入。星球旨在分享AI算法岗的秋招准备攻略(含刷题)、面试经验和内推机会(含提前批)等。

希望这个星球可以让你少走一些弯路

扫码进星球


如果喜欢面试经验,麻烦给个在看

麻烦给我一个在看!

----------------------------------------------------------------------------------------------------------------------
我们尊重原创,也注重分享,文章来源于微信公众号:CVer,建议关注公众号查看原文。如若侵权请联系qter@qter.org。
----------------------------------------------------------------------------------------------------------------------

鲜花

握手

雷人

路过

鸡蛋

yafeilinux和他的朋友们微信公众号二维码

微信公众号

专注于Qt嵌入式Linux开发等。扫一扫立即关注。

Qt开源社区官方QQ群二维码

QQ交流群

欢迎加入QQ群大家庭,一起讨论学习!

我有话说......