From 5530e6f9e2586290c8e5ec7c477285db201260da Mon Sep 17 00:00:00 2001 From: Estom Date: Wed, 1 Dec 2021 15:32:08 +0800 Subject: [PATCH] =?UTF-8?q?=E8=BD=AC=E7=A7=BB=E9=98=B5=E5=9C=B0?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- 工作日志/2021年11月22日-毕业设计备份.md | 218 ++++++++++++++++++++++++ 工作日志/2021年11月29日-今日计划.md | 15 ++ 工作日志/毕业设计.md | 47 +++-- 3 files changed, 252 insertions(+), 28 deletions(-) create mode 100644 工作日志/2021年11月22日-毕业设计备份.md create mode 100644 工作日志/2021年11月29日-今日计划.md diff --git a/工作日志/2021年11月22日-毕业设计备份.md b/工作日志/2021年11月22日-毕业设计备份.md new file mode 100644 index 00000000..884427b6 --- /dev/null +++ b/工作日志/2021年11月22日-毕业设计备份.md @@ -0,0 +1,218 @@ +# 基于联邦学习的恶意软件检测系统研究 + +## 第一章:绪论 + +### 1.1 研究背景和意义 + +1. 安卓系统应用。 +2. 恶意软件泛滥。 +3. 恶意软件检测。基于机器学习的恶意软件检测方案(巴拉巴拉介绍一对机器学习、深度学习在恶意软件检测领域的应用。)尽管机器学习服务取得了成功,但它们的有效性在很大程度上依赖于大量的数据。 +4. 隐私保护问题。 +5. 数据的需求和隐私保护的矛盾(当前恶意软件检测中存在的主要矛盾和问题)。数据成为限制机器学习算法的主要瓶颈。那么广大数据在哪里呢?肯定分散在用户设备上。所以我们提出了基于边缘学习联合学习的分布式机器学习方案。直接在拥有用户的本地设备上进行学习,获得机器学习模型,解决了数据量的问题和利用边缘设备的计算能力。同时传统的机器学习中,在数据搜集过程中侵犯隐私的问题。 +6. 最后提出基于联邦学习的恶意软件检测。结合恶意软件来说。数据的需求:数据隐私保护的需求、数据无标签问题的解决、数据非独立同分布训练模型、数据动态变化问题的解决。恶意软件数据隐私保护进一步提升(研究内容)。恶意软件数据非独立同分布的问题(研究内容)。 + +7. 针对以上背景,研究基于机器学习的恶意软件检测模型构建方案有十分重要的意义。这种意义主要体现在以下几个方面: + 1. 扩展了机器学习模型获取数据的范围。利用了边缘设备的计算能力。 + 2. 解决了集中式学习搜集数据困难、搜集数据过程中会侵犯用户隐私的问题。 + 3. 增强恶意软件检测的能力。增强隐私保护能力。 + +> 说实话,我主要是解决联邦学习中的问题,而非解决恶意软件检测的问题。为了解决数据中存在的问题,而非恶意软件相关的问题。如何让解决的问题与恶意软件检测进行强相关?而非与联邦学习强相关。 +> +> 原始数据+特征提取->训练数据+训练算法->训练模型->恶意软件检测。 +> +> 通过概述训练算法,解决训练数据中的需求和存在的问题,从而改善训练模型的准确率。而非直接更改模型,增强恶意软件检测的结果。需要把这个东西说明。 +> +> 以下是本文章的研究逻辑: +> +> 传统机器学习方法存在问题(研究背景)---->非独立同分布、隐私保护(研究的意义)---->研究联邦学习(研究方向)----->联邦学习中存在的一系列问题----->非独立同分布、隐私保护(研究目标)------>非独立同分布、隐私保护方法(研究内容) + +### 1.2 国内外研究现状 +#### 恶意软件的研究现状 + +1. 数据集方案(当前流行的主流数据集、恶意软件数据集) +2. 特征提取方案() +3. 模型构建方案() +4. 缺乏保护隐私的方案 + +#### 联邦学习的研究现状 + +* 联邦学习与非独立同分布问题 +* 联邦学习与隐私保护问题 +* 联邦学习系统构建 + + +1. 恶意软件检测的机器学习和联邦学习方案。 +2. 当前解决恶意软件数据隐私保护问题的方案——传统的数据隐私保护方法的研究(差分隐私、数据加密) +3. 当前解决恶意软件数据无标签问题的方案——恶意软件检测与半监督学习的方案(sephew、基准分类器) +4. 当前解决恶意软件数据非独立同分布问题的方案——现有的非独立同分布数据方案(prox?) +5. 联邦学习的隐私保护、半监督学习、非独立同分布等开放问题的解决方案。 + +#### 对比基线 +1. 恶意软件检测的机器学习和深度学习研究方案(第一层:针对恶意软件检测**领域**对比) +1. 恶意软件检测中数据扩展+隐私保护的研究方案(第二层:针对数据扩展和隐私保护等**需求**的对比) +2. 联邦学习的隐私保护、非独立同分布等开放问题的研究方案(第三层:针对隐私泄露问题、非独立同分布**问题**的对比) + +### 1.3 研究内容和研究目标 + +1. 联邦隐私保护学习方案——差分隐私、同态加密 +2. 联邦非独立同分布学习方案——联邦元学习 +3. 面向恶意软件检测的,基于联邦元学习和增强隐私保护能力的联邦学习框架 + +论文贡献(到时候再展开或者压缩内容。) +1. 实现了差分隐私,并通过实验验证了差分隐私对参数隐私的保护 +2. 使用了联邦元学习解决了非独立同分布问题 +3. 完成了相关的实验验证。证明了算法的有效性。通过对比,验证了系统的可用性和可扩展性。 +4. 构建了联邦学习框架和恶意软件检测系统。 + 1. 能够使用差分隐私保护用户的隐私, + 2. 能够针对非独立同分布场景,训练机器学习模型。 + 3. 一个恶意软件特征提取和分析工具.恶意软件检测系统包括特征提取模块和模型检测模块。 + 4. 提供了一个训练框架,以及一个可用的模型。 + +### 1.4 论文结构 + +## 第二章:理论基础和关键技术研究 + +### 2.1 联邦学习原理与联邦平均算法 +> 联邦学习的基础原理。联邦学习的实现方案。联邦学习的分类和数学表示。联邦学习中的开放问题。 +### 2.2 差分隐私的原理 + + +> 差分隐私、同态加密方法。实现了多方安全计算。 +### 2.3 非独立同分布原理 +> 非独立同分布的原理、表示方法(衡量标准)、产生的影响(论证非独立同分布是联邦学习解决问题中的关键问题。) +> 对非独立同分布的数学的描述。 +### 2.4 元学习原理 + + +### 2.5 数据处理 + +#### 2.5.1 恶意软件特征去提取 + +> 恶意软件主要分类、恶意软件主要分类的依据和数学表示(接口、行为?)、恶意软件主要的检测方法利用到的原理。 +> 哪些内容能够表现恶意软件 + +> 特征提取技术,特征降维方法。动静态特征的提取方法。 + +* 静态特征的提取 +* 动态特征的提取 +* 特征降维方法 + +#### 2.5.2 恶意软件特征选取 + + +#### 2.5.3 非独立同分布数据集的设置 + +### 2.6 神经网络模型 + + + + +## 第三章:基于贡献度和元学习的联邦学习算法 + +### 3.1 非独立同分布问题的建模 + + +### 3.2 基于贡献度的聚合方法 + +* 能够衡量用户的贡献度的方法 + + +### 3.3 基于贡献度和元学习的联邦学习算法 + + +## 第四章:基于差分隐私的联邦学习算法 + +### 4.1 威胁模型(数学公式推导) +### 4.2 基于差分隐私的联邦学习算法(算法,加入到整体的联邦学习框架中) +### 4.3 隐私保护的验证方法(从理论上证明,隐私保护的准确性) + + + +## 第五章:恶意软件检测算法的实验与结果 + + +### 5.1 实验环境 +### 5.2 实验设置 +### 5.3 实验结果 +### 5.4 实验结论 + + + +## 第六章:恶意软件检测系统构建 + +### 6.1 系统总体设计 + + +### 6.2 系统详细设计 +> 存在多个功能模块。按子系统讲解。需要起个合理的名字。 +> 服务端子系统 +> * 服务注册和发现模块 +> * 客户端选择模块 +> * 控制服务模块 +> * 聚合服务模块(提供多种聚合服务) +> * 训练服务模块(提供多种训练类型的聚合,不同端) +> +> 控制端子系统 +> * 训练控制模块 +> * +> +> 客户端子系统 +> * 服务访问模块 +> * 模型训练模块 + + +1. 特征提取模块 +2. 训练控制模块 +3. 网络通信模块 +4. 训练展示模块 +5. 实验结果对比模块 + +### 6.3 系统测试 +> 列出测试过程中的关键指标。 +1. 各个模块的功能测试 +2. 系统整体的集成测试 +3. 最终的界面展示 +## 第七章:结论 +> 3个研究内容。 +### 基于贡献度和元学习的联邦学习算法 + +### 基于差分隐私的联邦学习算法 + +### 基于微服务的恶意软件检测系统 + + +---------------------------- + + +## 补充:存在的问题 +(1)算法的稳定性存在问题,部分算法收敛过程中出现较大范围的不合理的抖动。 +(2)算法的最终准确率问题,部分算法无法收敛,由实验设置导致部分算法出现偏差,需要调参,进行更好的对比。 +(3)基于差分隐私的联邦学习方法进行实验。 +## 补充:尚未完成的工作 +(1)新的恶意软件数据集的数据处理工作。 +(2)针对非独立同分布问题的算法调试工作。需要调试参数,对比算法,画出实验结果对比的图形, +(3)基于差分隐私的联邦学习算法实现,并进行实验验证工作。 +(4)基于微服务技术的恶意软件检测系统中,实现服务的注册和发现。将前端控制和展示服务实现。 +## 补充:解决问题的思路和措施 +(1)查找相关的资料,对论文中提到的方法进行实现。 +(2)针对系统构建中出现的问题,进行详细设计和技术选型,编程实现,并分析效果。 +(3)对比别人的实验过程,借鉴实验的方法和参数的设置。 + +----------------------------------- + + +## 补充 + +### 相关要求 +1. 按照毕业论文的水准来写研究背景、研究目标、研究内容。把引用的文献写清楚。 +2. 已经完成的工作尽量详细点。按照毕业论文理论和实验部分的要求来写。 +3. 每一个技术或者内容的名字现在应该固定下来。不应该这么随意了。 +4. 对框架和系统部分进行区分。(是算法框架,是一种模式。系统是对这种模式的实现。) +5. 命名规范确定一下(基于联邦学习的恶意软件检测系统?面向恶意软件检测的联邦学习系统)搞明白啊,术语不统一自己也很凌乱。 + +### 术语规范 +1. 基于联邦学习的恶意软件检测方法、基于联邦学习的恶意软件检测系统 +2. (差分隐私+元学习+用户贡献度)联邦学习框架恶意软件检测方法/系统 +3. 基于差分隐私的联邦学习框架 +4. 基于用户贡献度和元学习的联邦学习框架 +5. 基于用户贡献度和联邦元学习的恶意软件检测方法 diff --git a/工作日志/2021年11月29日-今日计划.md b/工作日志/2021年11月29日-今日计划.md new file mode 100644 index 00000000..f911ed6a --- /dev/null +++ b/工作日志/2021年11月29日-今日计划.md @@ -0,0 +1,15 @@ +## 任务 + + + + +## 收获 + +1. 意志:觉得我现在做的是有意的,热情,惯性。 +2. 思维:注意力,远离干扰,离手机远点。 +3. 情感:开心、平淡。调节不良情绪,兴趣爱好,冥想日记,聊天。 +4. 体能:睡眠、运动、饮食。 + +由底层到高层的金字塔,逐渐加强。由高层到底层进行控制。 + +张雪峰罗翔大漠叔叔谭警官阿特 \ No newline at end of file diff --git a/工作日志/毕业设计.md b/工作日志/毕业设计.md index 884427b6..905e223c 100644 --- a/工作日志/毕业设计.md +++ b/工作日志/毕业设计.md @@ -3,40 +3,28 @@ ## 第一章:绪论 ### 1.1 研究背景和意义 +> 论述原则:所有的描述都是针对恶意软件领域的问题进行说明。恶意软件的隐私问题,恶意软件联邦学习的应用。 + 1. 安卓系统应用。 2. 恶意软件泛滥。 -3. 恶意软件检测。基于机器学习的恶意软件检测方案(巴拉巴拉介绍一对机器学习、深度学习在恶意软件检测领域的应用。)尽管机器学习服务取得了成功,但它们的有效性在很大程度上依赖于大量的数据。 -4. 隐私保护问题。 -5. 数据的需求和隐私保护的矛盾(当前恶意软件检测中存在的主要矛盾和问题)。数据成为限制机器学习算法的主要瓶颈。那么广大数据在哪里呢?肯定分散在用户设备上。所以我们提出了基于边缘学习联合学习的分布式机器学习方案。直接在拥有用户的本地设备上进行学习,获得机器学习模型,解决了数据量的问题和利用边缘设备的计算能力。同时传统的机器学习中,在数据搜集过程中侵犯隐私的问题。 -6. 最后提出基于联邦学习的恶意软件检测。结合恶意软件来说。数据的需求:数据隐私保护的需求、数据无标签问题的解决、数据非独立同分布训练模型、数据动态变化问题的解决。恶意软件数据隐私保护进一步提升(研究内容)。恶意软件数据非独立同分布的问题(研究内容)。 - -7. 针对以上背景,研究基于机器学习的恶意软件检测模型构建方案有十分重要的意义。这种意义主要体现在以下几个方面: - 1. 扩展了机器学习模型获取数据的范围。利用了边缘设备的计算能力。 - 2. 解决了集中式学习搜集数据困难、搜集数据过程中会侵犯用户隐私的问题。 - 3. 增强恶意软件检测的能力。增强隐私保护能力。 - -> 说实话,我主要是解决联邦学习中的问题,而非解决恶意软件检测的问题。为了解决数据中存在的问题,而非恶意软件相关的问题。如何让解决的问题与恶意软件检测进行强相关?而非与联邦学习强相关。 -> -> 原始数据+特征提取->训练数据+训练算法->训练模型->恶意软件检测。 -> -> 通过概述训练算法,解决训练数据中的需求和存在的问题,从而改善训练模型的准确率。而非直接更改模型,增强恶意软件检测的结果。需要把这个东西说明。 -> -> 以下是本文章的研究逻辑: -> -> 传统机器学习方法存在问题(研究背景)---->非独立同分布、隐私保护(研究的意义)---->研究联邦学习(研究方向)----->联邦学习中存在的一系列问题----->非独立同分布、隐私保护(研究目标)------>非独立同分布、隐私保护方法(研究内容) +3. 恶意软件检测。 +4. 数据的需求和隐私保护的矛盾。 +5. 基于联邦学习的恶意软件检测系统 ### 1.2 国内外研究现状 #### 恶意软件的研究现状 1. 数据集方案(当前流行的主流数据集、恶意软件数据集) -2. 特征提取方案() -3. 模型构建方案() -4. 缺乏保护隐私的方案 +2. 特征提取方案(静态特征、动态特征) +3. 模型构建方案(卷积神经网络、图神经网络) +4. 检测方案(特征码检测、指纹检测) +5. 各种方法的优势和不足。缺乏保护隐私的方案。 #### 联邦学习的研究现状 -* 联邦学习与非独立同分布问题 +* 联邦学习概念和分类 +* 与非独立同分布问题 * 联邦学习与隐私保护问题 * 联邦学习系统构建 @@ -47,10 +35,7 @@ 4. 当前解决恶意软件数据非独立同分布问题的方案——现有的非独立同分布数据方案(prox?) 5. 联邦学习的隐私保护、半监督学习、非独立同分布等开放问题的解决方案。 -#### 对比基线 -1. 恶意软件检测的机器学习和深度学习研究方案(第一层:针对恶意软件检测**领域**对比) -1. 恶意软件检测中数据扩展+隐私保护的研究方案(第二层:针对数据扩展和隐私保护等**需求**的对比) -2. 联邦学习的隐私保护、非独立同分布等开放问题的研究方案(第三层:针对隐私泄露问题、非独立同分布**问题**的对比) + ### 1.3 研究内容和研究目标 @@ -72,6 +57,12 @@ ## 第二章:理论基础和关键技术研究 +### 2.1 恶意软件检测的原理 + +1. 安卓操作系统 +2. 安卓安全机制 +3. 安卓反编译工具和原理。自己做的部分不包括这些工具,而是利用这些工具提取的特征组合的样式。 + ### 2.1 联邦学习原理与联邦平均算法 > 联邦学习的基础原理。联邦学习的实现方案。联邦学习的分类和数学表示。联邦学习中的开放问题。 ### 2.2 差分隐私的原理 @@ -81,7 +72,7 @@ ### 2.3 非独立同分布原理 > 非独立同分布的原理、表示方法(衡量标准)、产生的影响(论证非独立同分布是联邦学习解决问题中的关键问题。) > 对非独立同分布的数学的描述。 -### 2.4 元学习原理 +### 2.4 元学习原理(放到算法那一章) ### 2.5 数据处理