啊嘎哇在线工具箱

"AI人工智能入门教程"的目录

AI人工智能概述

AI人工智能是什么

AI人工智能组成有什么

AI人工智能涉及什么

AI人工智能为什么使用Python来开发AI

AI人工智能 Python的特点

AI人工智能 Python的重要功能

AI人工智能安装Python

AI人工智能机器学习的类型(ML)

AI人工智能最常见的机器学习算法

AI人工智能预处理数据

AI人工智能数据预处理技术

AI人工智能标记数据

AI人工智能在Python中构建分类器的步骤

AI人工智能在Python中构建分类器

AI人工智能逻辑回归

AI人工智能决策树分类器

AI人工智能随机森林分类器

AI人工智能分类器的性能

AI人工智能分类失衡问题

AI人工智能合奏技巧

AI人工智能在Python中构建回归器

AI人工智能如何用逻辑编程解决问题

AI人工智能安装必需的包

AI人工智能逻辑编程的例子

AI人工智能查找素数

AI人工智能解决难题

AI人工智能聚类概述

AI人工智能数据聚类算法

AI人工智能自然语言处理

AI人工智能导入NLTK

AI智能标记化，词干化和词形化的概念

AI人工智能块化:将数据分割成块

AI人工智能词袋(BOW)模型

AI人工智能解决问题

AI人工智能主题建模

AI人工智能时间序列数据介绍

AI人工智能 Pandas

AI人工智能从时间序列数据中提取统计信息

AI人工智能隐马尔可夫模型(HMM)分析顺序数据

AI人工智能语音识别

AI人工智能构建语音识别器

AI人工智能可视化音频信号 - 从文件读取并进行处理

AI人工智能表征音频信号:转换到频域

AI人工智能生成单调音频信号

AI人工智能语音特征提取

AI人工智能口语词的识别

AI 人工智能概念

AI人工智能约束满足解决的现实世界问题

AI人工智能算法

AI人工智能模拟游戏

AI人工智能神经网络概述

AI人工智能基于感知器的分类器

AI人工智能单层神经网络

AI人工智能多层神经网络

AI人工智能强化学习基础

AI人工智能构建模块：环境和代理

AI人工智能用Python构建环境

AI人工智能用Python构建一个学习代理

AI人工智能遗传算法

AI人工智能遗传算法概述

AI人工智能使用遗传算法实现解决方案

AI人工智能概述

AI人工智能读取，写入和显示图像

AI人工智能色彩空间转换

AI人工智能边缘检测

AI人工智能人脸检测

AI人工智能机器学习VS深度学习

AI人工智能卷积神经网络（CNN）

AI人工智能入门教程 AI人工智能分类失衡问题

2024-02-26 开发教程 AI人工智能入门教程匿名 14℃

分类不平衡是属于一个类别的观察数量显着低于属于其他类别的观测数量的场景。例如，在我们需要识别罕见疾病，银行欺诈性交易等情况下，这个问题非常突出。

不平衡分类的例子让我们考虑一个欺诈检测数据集的例子来理解不平衡分类的概念 -

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

解决平衡类的行为，解决不平衡的类问题。平衡类的主要目标是增加少数类的频率或减少多数类的频率。以下是解决失衡类问题的方法 -

重采样重新采样是用于重建样本数据集的一系列方法 - 包括训练集和测试集。重新抽样是为了提高模型的准确性。以下是一些重新抽样技术 -

随机抽样 - 这项技术旨在通过随机排除大多数类别的例子来平衡课堂分布。这样做直到大多数和少数群体的实例得到平衡。

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

在这种情况下，我们将 10% 的样本从非欺诈实例中取而代之，然后将它们与欺诈实例相结合 - 随机抽样后的非欺诈性观察:4950 的 10% = 495 将他们与欺诈观察结合后的总观测值: 50 + 495 = 545

因此，现在，低采样后新数据集的事件率为: 9%

这种技术的主要优点是可以减少运行时间并改善存储。但另一方面，它可以丢弃有用的信息，同时减少训练数据样本的数量。

随机抽样 - 这种技术旨在通过复制少数类中的实例数量来平衡类分布。

Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%

如果复制 50 次欺诈性观察 30 次，那么在复制少数类别观察值后欺诈观察值将为 1500。然后，在过采样后新数据中的总观察值将为:4950 + 1500 = 6450。因此，新数据集的事件率是:1500/6450 = 23%。

这种方法的主要优点是不会丢失有用的信息。但另一方面，由于它复制了少数族群的事件，因此它有更多的过度机会。

上一节： AI人工智能分类器的性能

下一节： AI人工智能合奏技巧