京东算法工程师笔试题
一、选择题
1.在推荐系统中,协同过滤算法分为基于用户的协同过滤和基于物品的协同过滤,以下哪种场景更适合使用基于物品的协同过滤?()[单选题]*
A.用户兴趣变化较快,物品数量较少
B.物品数量庞大且相对稳定,用户兴趣较为稳定
C.新用户较多,冷启动问题突出
D.用户行为数据稀疏,物品关联性较弱
答案:B
原因:基于物品的协同过滤适用于物品数量多且稳定的场景,依赖物品间的相似性计算,用户兴趣稳定时效果更好。
2.以下哪种排序算法在最坏情况下的时间复杂度是O(nlogn)?()[单选题]*
A.快速排序
B.冒泡排序
C.归并排序
D.插入排序
答案:C
原因:归并排序的时间复杂度稳定为O(nlogn),而快速排序最坏情况下为O(n2)。
3.在机器学习中,L1正则化和L2正则化的主要区别是?()[多选题]*
A.L1正则化倾向于产生稀疏解
B.L2正则化对异常值更敏感
C.L2正则化可防止过拟合,但无法进行特征选择
D.L1正则化在梯度下降中更新更平滑
答案:AC
原因:L1正则化通过将部分权重压缩为0实现特征选择,L2正则化通过权重衰减抑制过拟合。
4.京东搜索排序中,以下哪个指标更适合衡量用户满意度?()[单选题]*
A.点击率(CTR)
B.转化率(CVR)
C.用户停留时长
D.订单取消率
答案:B
原因:转化率直接反映用户最终购买行为,与满意度关联性更强。
5.以下关于GBDT(梯度提升决策树)的描述,错误的是?()[单选题]*
A.每棵树拟合的是前一棵树的残差
B.可以通过调整学习率控制过拟合
C.对特征缺失值不敏感
D.训练过程只能串行进行
答案:D
原因:GBDT可通过并行化生成每棵树的候选分裂点,但树之间仍需串行训练。
6.在自然语言处理中,BERT模型的核心创新点是?()[单选题]*
A.使用双向Transformer编码器
B.基于RNN的序列建模
C.引入注意力机制
D.采用词袋模型
答案:A
原因:BERT通过双向Transformer捕捉上下文信息,突破了传统单向语言模型的限制。
7.以下哪种数据库适合存储京东商品的实时库存数据?()[单选题]*
A.MongoDB
B.Redis
C.MySQL
D.HBase
答案:B
原因:Redis基于内存,支持高并发读写,适合实时性要求高的场景。
8.在分类任务中,类别不均衡问题可通过哪种方法解决?()[多选题]*
A.过采样少数类
B.欠采样多数类
C.调整类别权重
D.使用准确率作为评估指标
答案:ABC
原因:过采样、欠采样和权重调整可缓解不均衡问题,准确率在不均衡数据中可能失效。
9.以下关于京东物流路径优化算法的描述,正确的是?()[单选题]*
A.必须使用动态规划求解最短路径
B.可结合Dijkstra算法与实时交通数据
C.仅需考虑距离因素
D.无法处理多仓库调度问题
答案:B
原因:Dijkstra算法适合静态路径规划,结合实时数据可提升动态场景下的效率。
10.在分布式系统中,CAP理论指哪三个特性?()[多选题]*
A.一致性(Consistency)
B.可用性(Availability)
C.分区容错性(PartitionTolerance)
D.扩展性(Scalability)
答案:ABC
原因:CAP理论明确了一致性、可用性和分区容错性不可兼得。
11.以下哪种特征编码方式适合处理“商品类别”这类无序类别特征?()[单选题]*
A.标签编码(LabelEncoding)
B.独热编码(One-HotEncoding)
C.二进制编码
D.哈希编码
答案:B
原因:独热编码可避免为无序类别引入虚假的数值关系。
12.在广告点击率预测中,AUC指标的合理范围是?()[单选题]*
A.[-1,1]
B.[0,0.5]
C.[0.5,1]
D.[0,1]
答案:D
原因:AUC表示模型区分正负样本的能力,完美模型为1,随机猜测为0.5。
13.以下关于MapReduce的描述,错误的是?()[单选题]*
A.适合处理离线批任务
B.中间结果存储在磁盘上
C.实时计算延迟低
D.需通过Shuffle阶段聚合数据