之前对《时间序列与机器学习》一书进行了整体浏览,并且非常轻松愉快的完成了第一章的学习,今天开始学习第二章“时间序列的信息提取”。
先粗略的翻阅第二章,内容复杂,充斥了大量的定义、推导计算、代码,好在本人有些机器学习的基础,理解起来一点也不轻松,加油。
作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节,目标是从给定的时间序列数据中提取出有用的信息和特征,以支持后续的分析和预测任务,可以利用这些信息来建立时间序列模型,可见信息提取是一个关键的步骤。
本章第一小节直接引入了特征工程定义:
特征工程(Feature Engineering)是将数据转换为更好地表示潜在问题的特征,从而提高机器学习模型效果与性能的过程。
而我对特征工程的理解就是从一堆数据里找出能表示这堆数据的最小数据集,而这个找出特征数据的过程就是信息提取。
随后给出了一系列定义,包括特征的最小最大缩放、特征的标准化、特征的范数归一化。每个定义和命题都给出了证明过程和示例,示例还提供了Python代码,方便学习。
以下是特征的最小最大缩放的示例数据和代码:
由于我的本子有Python运行环境,编辑一个Python文件data.py,照抄上面的代码:
Python data.py运行输出:
好了,今天先学习到此,后续有时间继续学习和分享。
更多回帖