2025年房地产经纪人房地产数据清洗与预处理技术专题试卷及解析1
2025年房地产经纪人房地产数据清洗与预处理技术专题试
卷及解析
2025年房地产经纪人房地产数据清洗与预处理技术专题试卷及解析
第一部分:单项选择题(共10题,每题2分)
1、在房地产数据清洗过程中,对于缺失值的处理,以下哪种方法最适用于对房价
数据中少量随机缺失的填充?
A、直接删除含有缺失值的记录
B、用平均值填充
C、用中位数填充
D、用众数填充
【答案】C
【解析】正确答案是C。房价数据通常呈右偏分布,存在极端高值,中位数不受极
端值影响,更能反映数据的集中趋势,因此用中位数填充少量随机缺失值更为合理。A
选项会损失样本信息;B选项易受极端值影响;D选项适用于分类数据。知识点:缺失
值处理方法的选择。易错点:未考虑数据分布特征,误用平均值填充。
2、在处理房地产数据中的异常值时,箱线图法常被用于识别异常值,其判断标准
主要基于什么?
A、平均值±3倍标准差
B、四分位距(IQR)
C、数据分布的偏度
D、数据的峰度
【答案】B
【解析】正确答案是B。箱线图法通过计算数据的四分位距(IQR),将超出
Q3+1.5IQR或低于Q11.5IQR的值定义为异常值。A选项是3法则,适用于正态分布
数据;C和D选项描述的是分布形态,与异常值判断无关。知识点:异常值识别方法。
易错点:混淆不同异常值识别方法的适用条件。
3、在房地产数据预处理中,对于文本型字段如“房屋朝向”,最常用的编码方法是?
A、独热编码(OneHotEncoding)
B、标签编码(LabelEncoding)
C、二进制编码
D、哈希编码
【答案】A
【解析】正确答案是A。独热编码能将无序分类变量转换为多个二进制特征,避免
引入不存在的顺序关系,适合“房屋朝向”这类无序分类变量。B选项会引入顺序关系;
2025年房地产经纪人房地产数据清洗与预处理技术专题试卷及解析2
C和D选项更适用于高基数分类变量。知识点:分类变量编码方法。易错点:未考虑
变量类型,误用标签编码导致模型误解。
4、在数据清洗中,数据一致性检查主要关注的是?
A、数据是否重复
B、数据是否符合业务规则
C、数据是否完整
D、数据是否准确
【答案】B
【解析】正确答案是B。数据一致性检查确保数据符合业务逻辑和规则,如“建筑面
积”不应小于“套内面积”。A选项是重复值检查;C选项是完整性检查;D选项是准确性
检查。知识点:数据质量维度。易错点:混淆不同数据质量问题的检查重点。
5、在房地产数据标准化过程中,将不同量纲的特征(如面积、价格)转换到同一
尺度,最常用的方法是?
A、归一化(MinMaxScaling)
B、标准化(ZscoreStandardization)
C、对数变换
D、平方根变换
【答案】B
【解析】正确答案是B。标准化(Zscore)将数据转换为均值为0、标准差为1的分
布,适合后续需要假设数据服从正态分布的模型。A选项受极端值影响较大;C和D
选项主要用于处理偏态数据。知识点:数据标准化方法。易错点:未考虑数据分布和模
型需求,误用归一化。
6、在处理房地产数据中的重复记录时,以下哪种情况不应直接删除?
A、完全相同的记录
B、仅ID不同但其他字段相同的记录
C、关键字段相同但部分描述字段不同的记录
D、测试数据产生的重复记录
【答案】C
【解析】正确答案是C。关键字段相同但部分描述字段不同的记录可能包含补充信
息,需人工审核后再决定是否合并或删除。A和B选项可直接删除;D选项是无效数
据。知识点:重复值处理策略。易错点:未区分重复类型,盲目删除导致信息丢失。
7、在房地产数据清洗中,数据脱敏的主要目的是?
A、提高数据质量
B、保护个人隐私
C、减少数据量
2025