第二期:课程简介:
在金融行业中,营销部门和风控部门是两大主要业务部门。本课程将介绍数据分析技术如何应用在银行业营销部门面临的客户分群需求和互联网金融行业风控部门涉及到的信贷违约预测。 课程中将使用贴近真实业务场景的数据,并且给出切实可行的解决方法。
第一课:数据分析基本知识复习(2课时) 1. 数据分析的基本概念 a. 目的 b. 数据获取和清理 c. 数据的描述性统计与可视化 2. 数据分析的常用模型 a. 监督式模型:(广义)线性回归,决策树,随机森林,支持向量机,神经网络 b. 非监督式模型:聚类分析,因子分析,主成分分析 第二课:银行信贷客户的聚类分析-非监督式聚类(2课时) 1. 数值型变量的归一化 2. 类别型变量的编码 3. 距离的概念和种类 4. 闵可夫斯基距离 5. VDM(Value Difference Metric)距离 6. 聚类的性能度量 a. Davies-Bouldin Index b. Dunn Index 7. K-均值算法的难题:如何选取k 第三课:银行信贷客户的聚类分析-非监督式聚类(续)(2课时) 1. 数据描述 2. 数据预处理的实操:归一化与编码 3. K-均值算法用于信贷客户的聚类分析 4. 层次聚类法用于信贷客户的聚类分析 第四课:银行信贷客户的聚类分析-半监督式聚类(2课时) 1. 半监督聚类 a. 约束K-均值算法 2. 带有少量标签的K-均值算法 第五课:行为评分卡模型的简介(2课时) 1. 个人信贷产品的简介及其中的各类风险 2. 什么是评分卡模型 3. 信用风险领域的评分卡模型 a. 申请评分卡 b. 行为评分卡 c. 催收评分卡 4. 评分卡模型的时间窗口概念 a. 表现期 b. 观察期5. 拓展:PD模型与巴塞尔协议 第六课:行为评分卡模型的特征构造(2课时) 1. 训练集和测试集的划分 2. 特征构造 a. 逾期类型特征 b. 还款率类型特征 c. 使用率类型特征 d. 消费类型特征 e. 其他类型特征 3. 变量的分箱和WOE计算 第七课:行为评分卡模型的特征挑选(2课时) 1. IV的概念 2. 单变量分析 3. 多变量分析 4. 线性相关性 5. 多重共线性 第八课:行为评分卡模型的逻辑回归模型(2课时) 1. 逻辑回归模型的基本概念 a. 什么是逻辑回归 b. 逻辑回归中的参数估计 c. 逻辑回归的正则化:LASSO(L1约束) & Ridge(L2约束) 2. 用逻辑回归构造行为评分卡模型 3. 从概率到分数 第九课:行为评分卡模型的验证、监控和调优(2课时) 1. 评分卡模型常用的评价指标 a. KS b. AR c. PSI d. Kendal’s Tau 2. Assigned PD & Actual PD 3. 模型监控的概念 a. 模型监控的频率 b. 模型监控的解读 4. 模型的调优 第十课:组合评分卡模型(2课时) 1. 组合模型概述 2. 串行结构的评分组合模型 3. 异态并行结构的评分组合模型 4. 同态并行结构的评分组合模型
第一期:课程大纲: 第一讲:数据分析基本知识复习(2课时) 1. 数据分析的基本概念 a. 目的 b. 数据获取和清理 c. 数据的描述性统计 2. 数据可视化 3. 数据分析的常用模型 a. 监督式模型:(广义)线性回归,决策树,随机森林,支持向量机,神经网络 b. 非监督式模型:聚类分析,因子分析,主成分分析 c. 半监督式模型 4. 数据分析的常用工具 a. R和Python 第二课:银行内客户流失预警模型的介绍(2课时) 1. 银行客群和产品的类别 2. 为什么要做客户流失预警模型 3. 数据介绍和描述 第三课:金融客户流失预警模型中的数据预处理和特征衍生(2课时) 1. 流失数据中的极端值和缺失值的处理 2. 构建流失行为的特征 第四课:GBDT模型在流失预警模型中的应用(2课时) 1. GBDT模型如何应用在金融客户流失预警模型中 2. 如何从客户流失数据中推导GBDT模型的参数 3. GBDT模型对防范客户流失的指导意义 第五课:神经网络模型在流失预警模型中的应用(2课时) 1. 神经网络模型如何应用在金融客户流失预警模型中 2. 如何从客户流失数据中推导神经网络模型的参数 3. 神经网络模型对防范客户流失的指导意义 4. 神经网络模型和GBDT模型在客户流失预警工作中的功效比较 第六课:信用卡账户违约预测模型的介绍(2课时) 1. 信贷违约的基本概念 2. 为什么要做违约预测模型 3. 信贷违约预测模型的特性 4. 数据介绍和描述 5. 非平衡样本问题的定义和解决方法 a. 过抽样和欠抽样 b. SMOTE算法 第七课:违约预测模型中的数据预处理和特征衍生(2课时) 1. 构建信用风险类型的特征 2. 特征的分箱 a. 分箱的优点 b. Best-KS分箱法和卡方分箱法 3. 特征信息度的计算 第八课:违约预测模型中的数据预处理和特征衍生(续,2课时) 1. 分箱后如何编码 a. WOE的概念、优点和计算 2. 信用风险中的单变量分析和多变量分析 第九课:逻辑回归模型在违约预测模型中的应用(2课时) 1. 逻辑回归在违约预测模型中的作用的概述 2. 降维的方法 a. 主成分法 3. 变量选择的方法 a. LASSO方法 b. 逐步回归法 c. 随机森林法 4. 带误判惩罚的逻辑回归模型 第十课:违约预测模型的评价标准(2课时) 1. 模型对违约与非违约人群的区分度 2. 模型的准确度衡量: a. 尽可能抓住足够多的违约人群 b. 尽可能不误抓非违约人群