数据整合和辅助建模技术(1)

林荟 (杜邦先锋商业数据科学家)

2016-06-08

前情提要

  1. 什么是数据科学家
  2. 数据预处理
  3. 补充

介绍

服装消费者数据

  1. 人口统计学变量
    • 年龄(age)
    • 性别(gender)
    • 有房还是租房(house)
  2. 消费者行为变量
    • 2015年实体店购买该品牌服装花销(store_exp)
    • 2015年在线购买该品牌服装花销(online_exp)
    • 2015年实体店交易次数(store_trans)
    • 2015年在线交易次数(online_trans)
  3. 客户认知问卷调查

服装消费者数据

(Q1):我喜欢买不同品牌的服装,比较它们
(Q2):我喜欢买同一个品牌的服装
(Q3):品牌的知名度对我来说非常重要
(Q4):服装质量对我来说非常重要
(Q5):服装风格我喜欢的风格
(Q6):我喜欢在实体店购买
(Q7):我喜欢在网上购买
(Q8):价格对我来说很重要
(Q9):我喜欢不同风格的衣服
(Q10):我喜欢自己挑选服装,不需要周围人的建议

数据整合

数据整合

  1. 数据框显示
  2. 数据截选(按行/列)
  3. 数据总结
  4. 生成新变量
  5. 合并数据集

有监督 v.s 无监督学习

自变量和应变量的关系为:

\[\mathbf{y}=f(\mathbf{X})+\mathbf{\epsilon}\]

有监督和无监督建模技术用上面的符号语言表达就是:

  1. 无监督建模:探索\(\mathbf{X}\)中的自变量之间的关系
  2. 有监督建模:估计\(\mathbf{y}\)\(\mathbf{X}\)之间的关系 \(f(\cdot)\)

误差及其来源 - 系统误差和随机误差

\[ E(\mathbf{y}-\hat{\mathbf{y}})^{2}=E[f(\mathbf{X})+\mathbf{\epsilon}-\hat{f}(\mathbf{X})]^{2}=\underset{\text{(1)}}{\underbrace{[f(\mathbf{X})-\hat{f}(\mathbf{X})]^{2}}}+\underset{\text{(2)}}{\underbrace{Var(\mathbf{\epsilon})}} \]

(1)系统误差,能通过改进模型得到提高;
(2)随机误差,当前数据无法解释的部分,无法通过建立更复杂的模型来改进。

误差及其来源 - 应变量误差

\[ RMSE \times (0.0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0) \]

误差及其来源 - 应变量误差

误差及其来源 - 自变量误差

\[ \sigma_{0} \times (0.0, 0.5, 1.0, 1.5, 2.0, 2.5, 3.0) \]

误差及其来源 - 自变量误差

数据整合和辅助建模技术(2)

参考文献(数据预处理)

参考文献(数据整合,建模辅助技术)