-
深度学习框架 PyTorch 目录
学习使用深度学习框架 PyTorch, 主要包含的内容如下: PyTorch 创建张量 PyTorch 张量的数值计算 PyTorch 张量类型转换 PyTorch 张量的拼接操作 PyTorch 索引操作 PyTorch 张量形状的操作 PyTorch 张量的运算函数 PyTorch 自动微分模块 案例: 手动构建线性回归 PyTorch 构架构建线性回归 模型的保存和加载- 22
- 0
-
4 – 电信客户流失预测
1. 数据集介绍 AT&T数据,用户个人,通话,上网等信息数据 充分利用数据预测客户的流失情况 帮助挽留用户,保证用户基数和活跃程度 具体数据说明如下: CustomerID 客户ID Gender 性别 partneratt 配偶是否也为att用户 dependents_att 家人是否也是att用户 landline 是否使用att固话服务 internet_att/internet_…- 34
- 0
-
3 – 分类评估指标
1. 混淆矩阵 混淆矩阵作用就是看一看在测试集样本集中: 真实值是 正例 的样本中,被分类为 正例 的样本数量有多少,这部分样本叫做真正例(TP,True Positive) 真实值是 正例 的样本中,被分类为 假例 的样本数量有多少,这部分样本叫做伪反例(FN,False Negative) 真实值是 假例…- 17
- 0
-
2 – 案例 癌症分类预测
1 逻辑回归的API sklearn提供了逻辑回归的API sklearn.linear_model.LogisticRegression(solver='liblinear', penalty=‘l2’, C = 1.0) solver可选参数:{'liblinear', 'sag', 'saga','ne…- 22
- 0
-
1 – 逻辑回归介绍
1. 逻辑回归的应用场景 逻辑回归(Logistic Regression)是机器学习中的 一种分类模型 ,逻辑回归是一种分类算法,虽然名字中带有回归。由于算法的简单和高效,在实际中应用非常广泛 广告点击率 是否为垃圾邮件 是否患病 信用卡账单是否会违约 看到上面的例子,我们可以发现其中的特点,那就是都属于两个类别之间的判断。逻辑回归就是解决二分类问题的利器 2. 逻辑回归的原…- 48
- 0
-
0 – 逻辑回归简介
逻辑回归可以用于解决常见的分类问题,也是解决分类中常用的一种算法。在本章节学习到的内容如下: 理解逻辑回归的原理 理解分类的评估指标 掌握类别不平衡数据的解决方法 最后,我们应用逻辑回归模型实现 电信客户流失预测 案例。- 15
- 0
-
7 – 手写数字识别 KNN
1. 案例介绍 MNIST手写数字识别 是计算机视觉领域中 "hello world"级别的数据集 1999年发布,成为分类算法基准测试的基础 随着新的机器学习技术的出现,MNIST仍然是研究人员和学习者的可靠资源。 本次案例中,我们的目标是从数万个手写图像的数据集中正确识别数字。 2. 数据介绍 数据文件 train.csv 和 test.csv 包含从 0 到 9 的手绘数…- 34
- 0
-
6 – K 值选择问题
1. K取不同值时带来的影响 举例: 有两类不同的样本数据,分别用蓝颜色的小正方形和红色的小三角形表示,而图正中间有一个绿色的待判样本。 问题:如何给这个绿色的圆分类?是判断为蓝色的小正方形还是红色的小三角形? 方法:应用KNN找绿色的邻居,但一次性看多少个邻居呢(K取几合适)? 解决方案: K=4,绿色圆圈最近的4个邻居,3红色和1个蓝,按少数服从多数,判定绿色样本与红色三角形属于同一类别 K=…- 13
- 0
-
5 – 分类模型评估方法
1.数据集划分 1.1 为什么要划分数据集? 思考:我们有以下场景: 将所有的数据都作为训练数据,训练出一个模型直接上线预测 每当得到一个新的数据,则计算新数据到训练数据的距离,预测得到新数据的类别 存在问题: 上线之前,如何评估模型的好坏? 模型使用所有数据训练,使用哪些数据来进行模型评估? 结论:不能将所有数据集全部用于训练 为了能够评估模型的泛化能力,可以通过实验测试对学习器的泛化能力进行评…- 13
- 0
-
4 – K 近邻算法 API
1. Sklearn API介绍 本小节使用 scikit-learn 的 KNN API 来完成对鸢尾花数据集的预测. API介绍 2. 鸢尾花分类示例代码 鸢尾花数据集 鸢尾花Iris Dataset数据集是机器学习领域经典数据集,鸢尾花数据集包含了150条鸢尾花信息,每50条取自三个鸢尾花中之一:Versicolour、Setosa和Virginica 每个花的特征用如下属性描述: 示例代码…- 13
- 0
-
3 – 归一化和标准化
1. 为什么做归一化和标准化 样本中有多个特征,每一个特征都有自己的定义域和取值范围,他们对距离计算也是不同的,如取值较大的影响力会盖过取值较小的参数。因此,为了公平,样本参数必须做一些归一化处理,将不同的特征都缩放到相同的区间或者分布内。 2. 归一化 通过对原始数据进行变换,把数据映射到(默认为[0,1])之间。 scikit-learn 中实现归一化的 API: from sklearn.p…- 14
- 0
-
2 – 距离度量方法
1. 机器学习中为什么要度量距离? 机器学习算法中,经常需要 判断两个样本之间是否相似 ,比如KNN,K-means,推荐算法中的协同过滤等等,常用的套路是 将相似的判断转换成距离的计算 ,距离近的样本相似程度高,距离远的相似程度低。所以度量距离是很多算法中的关键步骤。 KNN算法中要求数据的所有特征都用数值表示。若在数据特征中存在非数值类型,必须采用手段将…- 14
- 0
-
1 – K 近邻算法原理
1. 为什么学习KNN算法 KNN是监督学习分类算法,主要解决现实生活中分类问题。 根据目标的不同将监督学习任务分为了分类学习及回归预测问题。 监督学习任务的基本流程和架构: 首先准备数据,可以是视频、音频、文本、图片等等 抽取所需要的一些列特征,形成特征向量(Feature Vectors) 将这些特征向量连同标记(Label)一并送入机器学习算法中,训练出一个预测模型(Predictive M…- 13
- 0
-
3 – 机器学习分类
1. 监督学习 监督学习指的是人们给机器一大堆标记好的数据,比如: 一大堆照片,标记出哪些是猫的照片,哪些是狗的照片 让机器自己学习归纳出算法或模型 使用该算法或模型判断出其他没有标记的照片是否是猫或狗 上述流程如下图所示: 监督学习典型模型:Linear regression、Logistic regression、SVM、Neural network等 1.1 分类问题 分类是监督学习的一个核…- 21
- 0
-
2 – 机器学习概念
1. 机器学习引入 试想这样一个场景,傍晚小街路面上沁出微雨后的湿润,和煦的细风吹来,抬头看看天边的晚霞。心里想着明天又是一个好天气。 走到水果摊旁,挑了个色泽青绿、敲起来声音浊响的青绿西瓜,一边期待着西瓜皮薄肉厚瓤甜的爽落感。 回想刚刚我们的场景,我们会发现这里涉及很多基于经验做出的预判。 为什么看到微湿路面、感到和风、天边晚霞就认为明天是好天呢? 答:这是因为在我们的生活经验中已经遇见过很多类…- 34
- 0
-
1 – 人工智能概念
1. 人工智能的应用方向 思考下面应用场景 考虑购物习惯,推荐相关商品? & 机器学习推荐算法 根据病人状况确定属于什么疾病? & 机器学习分类预测算法 预测2018年人民币汇率涨or不涨? & 机器学习分类预测算法 预测2022年深圳市房价趋势走向? & 机器学习回归算法 如何根据特征对样本数据进行聚类? & 机器学习聚类算法 2. 人工智能的发展历史 机…- 32
- 0
-
Pandas 使用指南——什么是Pandas?
Pandas是一个强大的分析结构化数据的工具集 它的使用基础是Numpy(提供高性能的矩阵运算) 用于数据挖掘和数据分析和处理,同时也提供数据清洗功能 Pandas利器之 Series 它是一种类似于一维数组的对象 是由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成 仅由一组数据也可产生简单的Series对象 Pandas利器之 DataFrame DataFrame是…- 15
- 0
-
3 Pandas绘图
1 Pandas数据可视化简介¶ pandas库是Python数据分析的核心库 它不仅可以加载和转换数据,还可以做更多的事情:它还可以可视化 pandas绘图API简单易用,是pandas流行的重要原因之一 2 Pandas 单变量可视化¶ 单变量可视化, 包括条形图、折线图、直方图、饼图等 数据使用葡萄酒评论数据集, 来自葡萄酒爱好者杂志(wineEnthusiast),包含10个字段,1509…- 25
- 0
-
1 Python数据可视化
1 数据可视化简介 1.1 数据可视化概念 数据可视化是指直观展现数据,它是数据处理过程的一部分。 把数值绘制出来更方便比较。借助数据可视化,能更直观地理解数据,这是直接查看数据表做不到的 数据可视化有助于揭示数据中隐藏的模式,数据分析时可以利用这些模式选择模型 1.2 数据可视化常用库和各自特点 1.2.1 Matplotlib(功能强大,代码相对复杂) Matplotlib是Python编程语…- 24
- 1
-
NumPy 使用指南
1 NumPy简介 NumPy(Numerical Python)是Python数据分析必不可少的第三方库,NumPy的出现一定程度上解决了Python运算性能不佳的问题,同时提供了更加精确的数据类型,使其具备了构造复杂数据类型的能力。本身是由C语言开发,是个很基础的扩展,NumPy被Python其它科学计算包作为基础包,因此理解np的数据类型对python数据分析十分重要。NumPy重在数值计算…- 38
- 0