七三笔记

机器学习特点

常见机器学习算法

逻辑回归决策树贝叶斯随机森林 KNN SVM 集成学习算法等

机器学习算法特点

它们的共同特点是：相互独立、顺序随意各个特征相互独立，一个样本的特征顺序随意，结果都一样对于一个样本，如果调换其特征的顺序，有不同的业务含义，那么就不能使用机器学习比如,iris数据集，四个特征是植物某些部分的长与宽，显然它们之间的顺序不影响它属于哪类植物又比如，我欠银行一百万，银行欠我一百万，虽然单词都一样，但他们有不同的含义，就不能使用机器学习解决此类问题这就是选择算法前要考虑的大方向问题

机器学习与规则

规则能区别的，通常使用规则

规则不容易区分的，才用机器学习机器学习中如果有一部分特征占的比重很大 - 可以将这样的特征放到规则中， - 个人建议超过50%时，就是这一个特征超过剩下所有特征的作用时 - 如果有部分特征很重要，那么可以对类别进一步细分 - 机器学习本质走的还是规则，这种规则不同于神经网络那样，受样本比重影响较大 - 当类别分的细时，重要特征之后，还可以通过其他特征，通向不同的类别

能否将规则与机器学习的特征放在一起进行训练可以，最终如何看效果，AI是一门以实践为主的学科

疾病，异常行为等，通常规定异常为1，正常为0 疾病： - 疾病有很多种，比如你检测的只是肝方向的疾病， - 训练集有两个类别的数据，正常，异常 - 这里面有个问题 - 就是肝病也有多种，甚至说有些肝方面的疾病，现代医学还没有检测到/发现 - 但这没有关系， - 因为模型也学习了正常肝的样本，当出现异常时，至少模型的分值也不会接近0 异常行为 - 同疾病类似，异常行为在变化，随时间，随地区有变化 - 但正确行为却是变化不大的，相对稳定 - 当模型分值偏离正常分值0时，那么意味着就算不是指定的异常，那它也不算正常

机器学习流程

模型选择模型训练:fit 模型评估： - 损失估计，mse - ((y_pred - y_test)**2).mean() 参数优化：超参数调优模型预测：predict

数据获取：自己有，自己造，买数据分析：业务分析，特征工程

根据数据选择模型

机器学习中标签数据为1维，通常也是1维，如果不是，则转化为1维

label = np.array(y_train) if label.ndim > 1: label = label.ravel() # 转换为一维数组 label.shape

机器学习模型

class Model(object): """机器学习模型通用框架 """ def __init__(self, parameters): """ 超参数定义初始化 """ self.parameters = parameters def fit(self, X, y): """训练 """ pass def predict(self, X): """预测 """ pass

机器学习是一个庞大的领域，包含了多种不同类型的算法，每种算法都有其特定的应用场景和优势。以下是一些常用的机器学习算法：一、监督学习算法线性回归（Linear Regression）：原理：通过拟合最佳直线来建立输入和输出之间的关系，用于预测连续型变量。应用场景：房价预测、销售额预测等。逻辑回归（Logistic Regression）：原理：通过逻辑函数将线性回归的结果转换为概率值，用于二分类问题。应用场景：垃圾邮件分类、疾病诊断等。决策树（Decision Trees）：原理：基于树形结构进行分类或回归，通过一系列规则对数据进行划分。应用场景：信贷风险评估、客户流失预测等。支持向量机（Support Vector Machines, SVM）：原理：寻找最佳超平面来划分数据，使不同类别的数据点间隔最大。应用场景：文本分类、图像识别等。随机森林（Random Forest）：原理：集成多个决策树，通过投票或平均预测结果来做出决策。应用场景：各种分类和回归问题。 K近邻算法（K-Nearest Neighbors, KNN）：原理：根据新数据点的K个最近邻的数据点进行分类或回归。应用场景：文本分类、推荐系统等。朴素贝叶斯（Naive Bayes）：原理：基于贝叶斯定理和特征条件独立性假设进行分类。应用场景：垃圾邮件识别、新闻分类等。二、无监督学习算法 K均值聚类（K-Means Clustering）：原理：将数据划分为K个簇，使得每个簇内的数据尽可能相似。应用场景：客户细分、图像分割等。主成分分析（Principal Component Analysis, PCA）：原理：通过正交变换将数据转换为线性不相关的变量（主成分）。应用场景：数据降维、可视化等。

三、其他常用算法神经网络（Neural Networks）：原理：模拟人脑神经元网络的结构和工作方式，通过构建多层神经元网络来进行学习和预测。应用场景：图像识别、语音识别、自然语言处理等。集成方法（Ensemble Methods）：包括多种算法，如Boosting、Bagging、Stacking等，通过结合多个模型的预测结果来提高整体预测性能。关联规则学习（Association Rule Learning）：原理：通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则。应用场景：推荐系统、市场分析等。降维算法（Dimensionality Reduction Algorithms）：如奇异值分解（SVD）、t-SNE等，用于减少数据的特征数量，同时保留主要信息。 Q学习（Q-Learning）：一种基于值的强化学习算法，通过更新Q值（状态-动作对的值）来学习最优策略。应用场景：游戏AI、机器人控制等。高斯混合模型（Gaussian Mixture Model, GMM）：原理：将数据建模为多个高斯分布的混合，用于聚类和密度估计。应用场景：音频信号处理、图像分割等。隐马尔可夫模型（Hidden Markov Model, HMM）：原理：用于序列数据的建模，如语音识别和文本生成。应用场景：自然语言处理、生物信息学等。这些算法各自具有不同的特点和应用场景，选择合适的算法对于解决实际问题至关重要。

https://scikit-learn.org/stable/ https://scikit-learn.org/stable/api/index.html

机器模型部署-PMML

python导出PMML文件

将机器学习模型转为一个xml文件，供java程序访问模型以决策树例，决策树模型训练完后，就是一堆 if else判断，把这种逻辑以及数据相关信息转为xml存储 python pmml安装 pip install sklearn-pandas pip install --user --upgrade git+https://github.com/jpmml/sklearn2pmml.git 或 pip install sklearn2pmml -i https://pypi.tuna.tsinghua.edu.cn/simple JDK安装因为sklearn2pmml模块中包含了java代码，所以使用这个功能，需要安装JDK 安装过程忽略 from sklearn.datasets import load_iris iris = load_iris() import pandas as pd from sklearn2pmml import PMMLPipeline from sklearn2pmml import sklearn2pmml from sklearn.tree import DecisionTreeClassifier clf = DecisionTreeClassifier() pipeline = PMMLPipeline([("classifier", clf)]) # pipeline.fit(iris.data, iris.target) # pmml建议输入的数据带上列名 X = pd.DataFrame(iris.data,columns=iris.feature_names) y = pd.DataFrame(iris.target) pipeline.fit(X, y) sklearn2pmml(pipeline, "tree2.pmml", with_repr = True)

先生成pkl文件再用jar转换1

import joblib from sklearn.datasets import load_iris iris = load_iris() import pandas as pd from sklearn2pmml import PMMLPipeline from sklearn2pmml import sklearn2pmml from sklearn.tree import DecisionTreeClassifier clf = DecisionTreeClassifier() pipeline = PMMLPipeline([("classifier", clf)]) X = pd.DataFrame(iris.data,columns=iris.feature_names) y = pd.DataFrame(iris.target) pipeline.fit(X, y) joblib.dump(value=pipeline, filename="tree3.pkl") git clone https://github.com/jpmml/jpmml-sklearn.git cd jpmml-sklearn mvn clean install 生成可执行jar文件 pmml-sklearn-example/target/pmml-sklearn-example-executable-1.7-SNAPSHOT.jar 测试 $ java -jar ./pmml-sklearn-example-executable-1.7-SNAPSHOT.jar --pkl-input tree3.pkl --pmml-output tree3.pmml

先生成pkl文件再用jar转换2

与前面一次转换不同的是，这一次转换python这边没有涉及pmml包，转换的工作全部放在了java端这种方式无法携带列名，在Java读取pmml时很不友好，即便训练时，带入了列名，但/pmml-sklearn-example-executable-1.7-SNAPSHOT.jar转换后，列名还是被转换成了x1,x2,... 因此还是推荐保存时使用PMMLPipeline import joblib from sklearn.datasets import load_iris iris = load_iris() from sklearn.tree import DecisionTreeClassifier clf = DecisionTreeClassifier() clf.fit(iris.data, iris.target) joblib.dump(value=clf, filename="tree4.pkl") java -jar ./pmml-sklearn-example-executable-1.7-SNAPSHOT.jar --pkl-input tree4.pkl --pmml-output tree4.pmml

接口

如果模型是python开发的，使用flask最方便当然了，只要能提供个接口，让其他程序访问你对应的模型都OK

wget https://dlcdn.apache.org/maven/maven-3/3.8.8/binaries/apache-maven-3.8.8-bin.tar.gz git clone https://github.com/jpmml/jpmml-sklearn.git cd jpmml-sklearn mvn clean install 关键是现在的jpmml-sklearn要求JDK至少11

生成jar文件 pmml-sklearn/target/pmml-sklearn-1.7-SNAPSHOT.jar 生成可执行jar文件 pmml-sklearn-example/target/pmml-sklearn-example-executable-1.7-SNAPSHOT.jar 测试 $ java -jar ./pmml-sklearn-example-executable-1.7-SNAPSHOT.jar --pkl-input tree3.pkl --pmml-output tree3.pmml

模型保存

joblib 保存

import joblib import numpy as np from sklearn.tree import DecisionTreeClassifier from sklearn.datasets import load_iris X,y = load_iris(return_X_y=True) # 模型定义 model = DecisionTreeClassifier(criterion="gini", max_depth=5) # 训练 model.fit(X=X,y=y) # 保存 # 模型保存推荐使用joblib joblib.dump(model,"model1.pkl")

joblib 加载

import joblib model = joblib.load("model1.pkl")

from sklearn.datasets import load_iris X,y = load_iris(return_X_y=True) # 预测 model.predict(X=X) array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

joblib.dump

joblib.dump可以存储不只是模型对象，可以是任何一个python对象 - 当然了，python的模型对象，也是一个python对象 joblib.dump(value,filename,compress=0,protocol=None) value：Python对象。 filename：文件名，支持的文件扩展名（“.z”,“.gz”,“bz2”,“.xz”,“.lzma”） compress： - int从0到9或bool或 - 2元组。第一个元素压缩字符串（例如’zlib’，‘gzip’，‘bz2’，‘lzma’，'xz '），第二个元素是0到9的整数，对应于压缩级别。 protocol：不用管，与pickle里的protocol参数一样

joblib.load

joblib.load(filename, mmap_mode=None) filename：str.pathlib.Path或文件对象。要从中加载对象的文件或文件路径。 mmap_mode：{无，‘r +’，‘r’，‘w +’，‘c’}，可选如果不是“None”，则从磁盘对阵列进行内存映射。此模式对压缩文件无效。请注意，在这种情况下，重建对象可能不再与原始对象完全匹配。主要用法 joblib.load(filename)

pickle

import numpy as np from sklearn.tree import DecisionTreeClassifier from sklearn.datasets import load_iris X,y = load_iris(return_X_y=True) # 模型定义 model = DecisionTreeClassifier(criterion="gini", max_depth=5) # 训练 model.fit(X=X,y=y)

import pickle with open('model.pkl', 'wb') as file: pickle.dump(model, file)

pickle.load的参数是python文件对象，不是字符串路径

import pickle with open("model.pkl", 'rb') as f: model = pickle.load(f)

from sklearn.datasets import load_iris X,y = load_iris(return_X_y=True) model.predict(X) array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

参考

sklearn2pmml github PMML讲解及使用

七三笔记路线：学习，记录，分享