谷歌机器学习速成课视频全集[25讲]

谷歌机器学习速成课视频全集[25讲] 幻灯模式阅读 1239 评论(1) 分享：

吕永亮 2018-03-22 18:41:54

![](http://data.xyzgate.com/ef8e3a938dde282356d388e0a0a05363.jpeg)

电脑端上数字之门的小伙伴们可以在 **[数字之门->计算云]** 中安装命令行服务器中的**TensorFlow服务器**，里面有配置好的TensorFlow环境一键网页使用，边看边学，**动手做才能真正学得会**。

废话不多说，直接上干货

------------

### 谷歌机器学习 课程目录
01-03讲：机器学习简介、框架处理、深入了解ML（就在本页）
04-06讲：降低损失、使用TF的基本步骤、泛化
07-09讲：训练集和测试集、验证、表示法
10-12讲：特征组合、简单正则化、逻辑回归
13-15讲：分类、稀疏性正则化、神经网络简介
16-18讲：训练神经网络、多类别神经网络、嵌套
19-20讲：生产环境机器学习系统、静态与动态训练
21-22讲：静态与动态推理、数据依赖关系
23-25讲：癌症预测、18世纪文字、应用准则

------------

###  第一讲：机器学习简介
本单元将为您介绍机器学习 (ML)。

预计用时：3 分钟
学习目标：
- 了解掌握机器学习技术的实际优势
- 理解机器学习技术背后的理念

------------

### 第二讲：问题构建
本单元探讨了如何将某个任务构建为机器学习问题，并介绍了各种机器学习方法中通用的很多基本词汇术语。

预计用时：2 分钟
学习目标：
- 复习机器学习基本术语
- 了解机器学习的各种用途

------------

###  第三讲：深入了解机器学习
线性回归是一种找到最适合一组点的直线或超平面的方法。本模块会先直观介绍线性回归，为介绍线性回归的机器学习方法奠定基础。

预计用时：3 分钟
学习目标：
- 复习前面学过的直线拟合知识
- 将机器学习中的权重和偏差与直线拟合中的斜率和偏移关联起来
- 大致了解“损失”，详细了解平方损失

------------

###  第四讲：降低损失
为了训练模型，我们需要一种可降低模型损失的好方法。迭代方法是一种广泛用于降低损失的方法，而且使用起来简单有效。

预计用时：5 分钟
学习目标：
- 了解如何使用迭代方法来训练模型
- 全面了解梯度下降法和一些变体，包括：小批量梯度下降法、随机梯度下降法
- 尝试不同的学习速率

------------

### 第五讲：使用TensorFlow的基本步骤
预计用时：1 分钟

学习目标：
- 了解如何在 TensorFlow 中创建和修改张量
- 了解 Pandas 的基础知识
- 使用 TensorFlow 的一种高级 API 开发线性回归代码
- 尝试不同的学习速率

------------

###  第六讲：泛化
泛化是指模型很好地拟合以前未见过的新数据（从用于创建该模型的同一分布中抽取）的能力。

预计用时：5 分钟
学习目标：
- 直观理解过拟合
- 确定某个模型是否出色
- 将数据集划分为训练集和测试集

------------

###  第七讲：训练集和测试集
测试集是用于评估根据训练集开发的模型的数据集。

预计用时：2 分钟
学习目标：
- 了解将数据集分成训练集和测试集的优势

------------

###  第八讲：验证
通过将数据集划分为训练集和测试集，您可以判断给定模型能否很好地泛化到新数据。不过，当进行多轮超参数调整时，仅使用两类数据可能不太够。

预计用时：2 分钟
学习目标：
- 了解验证集在划分方案中的重要性

------------

### 第九讲：表示法
机器学习模型不能直接看到、听到或感知输入样本。您必须创建数据表示，为模型提供有用的信号来了解数据的关键特性。也就是说，为了训练模型，您必须选择最能代表数据的特征集。

预计用时：6 分钟

学习目标：
- 将日志和 Protocol Buffer 中的字段映射到实用的机器学习特征
- 判断哪些特性可用作合适的特征
- 处理离群值特征
- 调查数据集的统计属性
- 使用 tf.estimator 训练并评估模型

------------

### 第十讲：特征组合
特征组合是指两个或多个特征相乘形成的合成特征。特征的相乘组合可以提供超出这些特征单独能够提供的预测能力。

预计用时：5 分钟
学习目标：
- 了解特征组合
- 在 TensorFlow 中实施特征组合

------------

### 第十一讲：简化正则化
正则化指的是降低模型的复杂度以减少过拟合。

预计用时：5 分钟
学习目标：
- 了解复杂度与泛化之间的权衡
- 使用 L2 正则化进行实验

------------

### 第十二讲：逻辑回归
逻辑回归会生成一个介于 0 到 1 之间（不包括 0 和 1）的概率值，而不是确切地预测结果是 0 还是 1。以用于检测垃圾邮件的逻辑回归模型为例。如果此模型推断某一特定电子邮件的值为 0.932，则意味着该电子邮件是垃圾邮件的概率为 93.2%。更准确地说，这意味着在无限训练样本的极限情况下，模型预测其值为 0.932 的这组样本实际上有 93.2% 是垃圾邮件，其余的 6.8% 不是垃圾邮件。

预计用时：4 分钟
学习目标：
- 了解逻辑回归
- 了解逻辑回归的损失和正则化函数

------------

### 第十三讲：分类
此单元介绍了如何使用逻辑回归来执行分类任务，并探讨了如何评估分类模型的有效性。

预计用时：8 分钟
学习目标：
- 评估逻辑回归模型的准确率和精确率
- 了解 ROC 曲线和曲线下面积

------------

### 第十四讲：稀疏性正则化
本模块主要介绍学习多维度特征矢量的模型的特殊要求。

预计用时：2 分钟
学习目标：
- 了解如何使信息缺乏的系数值正好为 0，以便节省 RAM
- 了解 L2 正则化之外的其他类型的正则化

------------

### 第十五讲：神经网络简介
神经网络是更复杂版本的特征组合。实质上，神经网络会学习适合您的相应特征组合。

预计用时：3 分钟
学习目标：
- 对神经网络有一定的了解，尤其是了解以下方面
- 隐藏层
- 激活函数

------------

### 第十六讲：训练神经网络
反向传播算法是最常见的一种神经网络训练算法。借助这种算法，梯度下降法在多层神经网络中将成为可行方法。TensorFlow 可自动处理反向传播算法，因此您不需要对该算法作深入研究。要了解它的工作原理，请参阅下面的反向传播算法的直观说明。

预计用时：5 分钟
学习目标：
- 在一定程度上了解反向传播算法

------------

### 第十七讲：多类别神经网络
前面您已经了解了二元分类模型，该模型可从两个可能的选项中选择其一，例如：特定电子邮件是垃圾邮件还是非垃圾邮件。特定肿瘤是恶性肿瘤还是良性肿瘤。在本单元中，我们将研究多类别分类，这种模型可从多种可能的情况中进行选择。例如：这条狗是小猎犬、巴吉度猎犬还是寻血猎犬？这朵花是西伯利亚鸢尾花、荷兰鸢尾花、蓝旗鸢尾花还是有髯鸢尾花？那架飞机是波音 747、空中客车 320、波音 777 还是 Embraer 190？这是一张苹果、熊、糖果、狗狗还是鸡蛋的图片？

预计用时：5 分钟
学习目标：
- 理解多类别分类问题，尤其是 Softmax
- 在 TensorFlow 中制定 Softmax 解决方案

------------

### 第十八讲：嵌套
嵌套是一种相对低维的空间，您可以将高维矢量映射到这种低维空间里。通过使用嵌套，可以让在大型输入（比如代表字词的稀疏矢量）上进行机器学习变得更加容易。在理想情况下，嵌套可以将语义上相似的不同输入映射到嵌套空间里的邻近处，以此来捕获输入的语义。

预计用时：15 分钟

学习目标：
- 学习嵌套的定义和用途
- 学习嵌套如何编码语义关系
- 学习如何使用嵌套
- 学习如何训练有意义的嵌套（例如使用 word2vec）

------------

### 第十九讲：生产环境机器学习系统
除了实现机器学习算法之外，机器学习还包含许多其他内容。生产环境机器学习系统包含大量组件。

预计用时：3 分钟
学习目标：
了解生产环境机器学习系统中组件的跨度范围

------------

### 第二十讲：静态训练与动态训练
从广义上讲，训练模型的方式有两种：静态模型采用离线训练方式。也就是说，我们只训练模型一次，然后使用训练后的模型一段时间。动态模型采用在线训练方式。也就是说，数据会不断进入系统，我们通过不断地更新系统将这些数据整合到模型中。

预计用时：3 分钟
学习目标：
- 识别静态训练与动态训练的优缺点

------------

### 第二十一讲：静态推理与动态推理
您可以选择以下任一推理策略：离线推理，指的是使用 MapReduce 或类似方法批量进行所有可能的预测。然后，将预测记录到 SSTable 或 Bigtable 中，并将它们提供给一个缓存/查询表。在线推理，指的是使用服务器根据需要进行预测。

预计用时：3 分钟
学习目标：
- 了解静态推理和动态推理的优缺点
- 评估现实世界情形的训练和应用需求

------------

### 第二十二讲：数据依赖关系
数据之于机器学习开发者的重要性等同于代码之于传统编程人员的重要性。本课程重点介绍您应该围绕数据询问的各种问题。

预计用时：10 分钟
学习目标：
- 了解生产机器学习系统中的数据依赖关系

------------

### 第二十三讲：癌症预测
您可以选择以下任一推理策略：在本课中，您将排查与癌症预测相关的机器学习现实应用问题。

预计用时：5 分钟
学习目标：
- 确定应用于现实世界的机器学习模型中的缺陷

------------

### 第二十四讲：文学
在本课中，您将排查与 18 世纪文学相关的机器学习现实应用问题。

预计用时：5 分钟
学习目标：
- 确定应用于现实世界的机器学习实验性设计中的缺陷

------------

### 第二十五讲：应用准则
这节课总结了从这些现实世界应用示例中所学到的准则。

预计用时：2 分钟
学习目标：
- 确定应用于现实世界的机器学习模型中的缺陷

------------

能坚持看到这里的朋友，我由衷的佩服您的毅力和好学精神，欢迎您继续关注数字之门，我们讲提供更多干货内容。

> 转载自微信公众号 校苑数模