(Zeng et al., 2022)这个流程描述了一个使用机器学习方法(特别是梯度提升决策树,GBDT)来识别和分类城市社区是否发生绅士化(gentrification)的过程。以下是对该流程的详细分析:
1. 数据准备与预处理
a. 匹配POIs到NAICS代码
- POIs(兴趣点)提取:从数据源中提取出各种兴趣点(如餐厅、咖啡店、健身房等)。
- 匹配NAICS代码:将这些POIs与北美行业分类系统(NAICS)代码进行匹配,以便对不同类型的设施进行标准化和分类。
2. 特征工程
b. 使用机器学习方法识别本地化便利设施
- 变量Y(目标变量):表示社区是否发生绅士化,是一个二元变量(1表示绅士化,0表示未绅士化)。根据定义,如果一个社区在2016年的平均房价低于第40百分位,并且房价增长百分比大于所有社区的中位数,则标记为“绅士化区域”。
- 变量X(独立变量):表示每个便利设施类别在研究期间(从t到t-1)的变化总和。
3. 模型训练与验证
- 数据集划分:将数据集分为训练集、验证集和测试集。
- 模型训练:使用训练集和验证集对GBDT模型进行训练和调优。GBDT通过构建多个决策树来逐步减少预测误差,每个树都基于前一个树的伪残差进行训练。
- 模型验证:通过验证集的结果调整模型的超参数,以生成改进的训练模型。
4. 模型应用与结果输出
- 特征重要性:输入测试数据集后,模型会输出特征重要性,即本地化便利设施的贡献度,这可以帮助理解哪些便利设施在识别绅士化过程中起关键作用。
- 绅士化分类:模型还会输出每个测试样本发生绅士化的概率。
5. 流程总结
整个流程如图1所示:
- 数据准备:从POIs中提取便利设施并匹配NAICS代码。
- 特征工程:定义目标变量Y和独立变量X。
- 模型训练与验证:使用GBDT模型进行训练和调优。
- 模型应用:输入测试数据集,输出特征重要性和绅士化分类结果。
关键点
- 选择GBDT的原因:GBDT在处理关系型数据集时表现出色,能够通过多个决策树逐步减少预测误差,适用于本问题中的多类训练过程。
- 特征重要性:通过特征重要性可以识别出对绅士化识别贡献最大的本地化便利设施。
- 绅士化分类:最终输出每个社区发生绅士化的概率,帮助理解和预测城市社区的发展趋势。
这个流程结合了数据科学和城市规划的知识,为研究和预测城市绅士化现象提供了一种有效的方法。
Zeng, J., Yue, Y., Gao, Q., Gu, Y., & Ma, C. (2022). Identifying Localized Amenities for Gentrification Using a Machine Learning-Based Framework. Applied Geography, 145, 102748. https://doi.org/10.1016/j.apgeog.2022.102748