转移阵地

2026-06-10 11:57:03 +08:00 · 2021-12-01 15:32:08 +08:00
parent 534a527c3d
commit 5530e6f9e2
3 changed files with 252 additions and 28 deletions
--- a/工作日志/2021年11月22日-毕业设计备份.md
+++ b/工作日志/2021年11月22日-毕业设计备份.md
@@ -0,0 +1,218 @@
+# 基于联邦学习的恶意软件检测系统研究
+
+## 第一章：绪论
+
+### 1.1 研究背景和意义
+
+1. 安卓系统应用。
+2. 恶意软件泛滥。
+3. 恶意软件检测。基于机器学习的恶意软件检测方案（巴拉巴拉介绍一对机器学习、深度学习在恶意软件检测领域的应用。）尽管机器学习服务取得了成功，但它们的有效性在很大程度上依赖于大量的数据。
+4. 隐私保护问题。
+5. 数据的需求和隐私保护的矛盾（当前恶意软件检测中存在的主要矛盾和问题）。数据成为限制机器学习算法的主要瓶颈。那么广大数据在哪里呢？肯定分散在用户设备上。所以我们提出了基于边缘学习联合学习的分布式机器学习方案。直接在拥有用户的本地设备上进行学习，获得机器学习模型，解决了数据量的问题和利用边缘设备的计算能力。同时传统的机器学习中，在数据搜集过程中侵犯隐私的问题。
+6. 最后提出基于联邦学习的恶意软件检测。结合恶意软件来说。数据的需求：数据隐私保护的需求、数据无标签问题的解决、数据非独立同分布训练模型、数据动态变化问题的解决。恶意软件数据隐私保护进一步提升（研究内容）。恶意软件数据非独立同分布的问题（研究内容）。
+
+7. 针对以上背景，研究基于机器学习的恶意软件检测模型构建方案有十分重要的意义。这种意义主要体现在以下几个方面：
+   1. 扩展了机器学习模型获取数据的范围。利用了边缘设备的计算能力。
+   2. 解决了集中式学习搜集数据困难、搜集数据过程中会侵犯用户隐私的问题。
+   3. 增强恶意软件检测的能力。增强隐私保护能力。
+
+> 说实话，我主要是解决联邦学习中的问题，而非解决恶意软件检测的问题。为了解决数据中存在的问题，而非恶意软件相关的问题。如何让解决的问题与恶意软件检测进行强相关？而非与联邦学习强相关。
+>
+> 原始数据+特征提取->训练数据+训练算法->训练模型->恶意软件检测。
+>
+> 通过概述训练算法，解决训练数据中的需求和存在的问题，从而改善训练模型的准确率。而非直接更改模型，增强恶意软件检测的结果。需要把这个东西说明。
+>
+> 以下是本文章的研究逻辑：
+>
+> 传统机器学习方法存在问题（研究背景）---->非独立同分布、隐私保护（研究的意义）---->研究联邦学习（研究方向）----->联邦学习中存在的一系列问题----->非独立同分布、隐私保护（研究目标）------>非独立同分布、隐私保护方法（研究内容）
+
+### 1.2 国内外研究现状
+#### 恶意软件的研究现状
+
+1. 数据集方案（当前流行的主流数据集、恶意软件数据集）
+2. 特征提取方案（）
+3. 模型构建方案（）
+4. 缺乏保护隐私的方案
+
+#### 联邦学习的研究现状
+
+* 联邦学习与非独立同分布问题
+* 联邦学习与隐私保护问题
+* 联邦学习系统构建
+
+
+1. 恶意软件检测的机器学习和联邦学习方案。
+2. 当前解决恶意软件数据隐私保护问题的方案——传统的数据隐私保护方法的研究（差分隐私、数据加密）
+3. 当前解决恶意软件数据无标签问题的方案——恶意软件检测与半监督学习的方案（sephew、基准分类器）
+4. 当前解决恶意软件数据非独立同分布问题的方案——现有的非独立同分布数据方案（prox？）
+5. 联邦学习的隐私保护、半监督学习、非独立同分布等开放问题的解决方案。
+
+#### 对比基线
+1. 恶意软件检测的机器学习和深度学习研究方案（第一层：针对恶意软件检测**领域**对比）
+1. 恶意软件检测中数据扩展+隐私保护的研究方案（第二层：针对数据扩展和隐私保护等**需求**的对比）
+2. 联邦学习的隐私保护、非独立同分布等开放问题的研究方案（第三层：针对隐私泄露问题、非独立同分布**问题**的对比）
+
+### 1.3 研究内容和研究目标
+
+1. 联邦隐私保护学习方案——差分隐私、同态加密
+2. 联邦非独立同分布学习方案——联邦元学习
+3. 面向恶意软件检测的，基于联邦元学习和增强隐私保护能力的联邦学习框架
+
+论文贡献（到时候再展开或者压缩内容。）
+1. 实现了差分隐私，并通过实验验证了差分隐私对参数隐私的保护
+2. 使用了联邦元学习解决了非独立同分布问题
+3. 完成了相关的实验验证。证明了算法的有效性。通过对比，验证了系统的可用性和可扩展性。
+4. 构建了联邦学习框架和恶意软件检测系统。
+   1. 能够使用差分隐私保护用户的隐私，
+   2. 能够针对非独立同分布场景，训练机器学习模型。
+   3. 一个恶意软件特征提取和分析工具.恶意软件检测系统包括特征提取模块和模型检测模块。
+   4. 提供了一个训练框架，以及一个可用的模型。
+
+### 1.4 论文结构
+
+## 第二章：理论基础和关键技术研究
+
+### 2.1 联邦学习原理与联邦平均算法
+> 联邦学习的基础原理。联邦学习的实现方案。联邦学习的分类和数学表示。联邦学习中的开放问题。
+### 2.2 差分隐私的原理
+
+
+> 差分隐私、同态加密方法。实现了多方安全计算。
+### 2.3 非独立同分布原理
+> 非独立同分布的原理、表示方法（衡量标准）、产生的影响（论证非独立同分布是联邦学习解决问题中的关键问题。）
+> 对非独立同分布的数学的描述。
+### 2.4 元学习原理
+
+
+### 2.5 数据处理
+
+#### 2.5.1 恶意软件特征去提取
+
+> 恶意软件主要分类、恶意软件主要分类的依据和数学表示（接口、行为？）、恶意软件主要的检测方法利用到的原理。
+> 哪些内容能够表现恶意软件
+
+> 特征提取技术，特征降维方法。动静态特征的提取方法。
+
+* 静态特征的提取
+* 动态特征的提取
+* 特征降维方法
+
+#### 2.5.2 恶意软件特征选取
+
+
+#### 2.5.3 非独立同分布数据集的设置
+
+### 2.6 神经网络模型
+
+
+
+
+## 第三章：基于贡献度和元学习的联邦学习算法
+
+### 3.1 非独立同分布问题的建模
+
+
+### 3.2 基于贡献度的聚合方法
+
+* 能够衡量用户的贡献度的方法
+
+
+### 3.3 基于贡献度和元学习的联邦学习算法
+
+
+## 第四章：基于差分隐私的联邦学习算法
+
+### 4.1 威胁模型（数学公式推导）
+### 4.2 基于差分隐私的联邦学习算法（算法，加入到整体的联邦学习框架中）
+### 4.3 隐私保护的验证方法（从理论上证明，隐私保护的准确性）
+
+
+
+## 第五章：恶意软件检测算法的实验与结果
+
+
+### 5.1 实验环境
+### 5.2 实验设置
+### 5.3 实验结果
+### 5.4 实验结论
+
+
+
+## 第六章：恶意软件检测系统构建
+
+### 6.1 系统总体设计
+
+
+### 6.2 系统详细设计
+> 存在多个功能模块。按子系统讲解。需要起个合理的名字。
+> 服务端子系统
+> * 服务注册和发现模块
+> * 客户端选择模块
+> * 控制服务模块
+> * 聚合服务模块（提供多种聚合服务）
+> * 训练服务模块（提供多种训练类型的聚合，不同端）
+> 
+> 控制端子系统
+> * 训练控制模块
+> * 
+> 
+> 客户端子系统
+> * 服务访问模块
+> * 模型训练模块
+
+
+1. 特征提取模块
+2. 训练控制模块
+3. 网络通信模块
+4. 训练展示模块
+5. 实验结果对比模块
+
+### 6.3 系统测试
+> 列出测试过程中的关键指标。
+1. 各个模块的功能测试
+2. 系统整体的集成测试
+3. 最终的界面展示
+## 第七章：结论
+> 3个研究内容。
+### 基于贡献度和元学习的联邦学习算法
+
+### 基于差分隐私的联邦学习算法
+
+### 基于微服务的恶意软件检测系统
+
+
+----------------------------
+
+
+## 补充：存在的问题
+（1）算法的稳定性存在问题，部分算法收敛过程中出现较大范围的不合理的抖动。
+（2）算法的最终准确率问题，部分算法无法收敛，由实验设置导致部分算法出现偏差，需要调参，进行更好的对比。
+（3）基于差分隐私的联邦学习方法进行实验。
+## 补充：尚未完成的工作
+（1）新的恶意软件数据集的数据处理工作。
+（2）针对非独立同分布问题的算法调试工作。需要调试参数，对比算法，画出实验结果对比的图形，
+（3）基于差分隐私的联邦学习算法实现，并进行实验验证工作。
+（4）基于微服务技术的恶意软件检测系统中，实现服务的注册和发现。将前端控制和展示服务实现。
+## 补充：解决问题的思路和措施
+（1）查找相关的资料，对论文中提到的方法进行实现。
+（2）针对系统构建中出现的问题，进行详细设计和技术选型，编程实现，并分析效果。
+（3）对比别人的实验过程，借鉴实验的方法和参数的设置。
+
+-----------------------------------
+
+
+## 补充
+
+### 相关要求
+1. 按照毕业论文的水准来写研究背景、研究目标、研究内容。把引用的文献写清楚。
+2. 已经完成的工作尽量详细点。按照毕业论文理论和实验部分的要求来写。
+3. 每一个技术或者内容的名字现在应该固定下来。不应该这么随意了。
+4. 对框架和系统部分进行区分。（是算法框架，是一种模式。系统是对这种模式的实现。）
+5. 命名规范确定一下（基于联邦学习的恶意软件检测系统？面向恶意软件检测的联邦学习系统）搞明白啊，术语不统一自己也很凌乱。
+
+### 术语规范
+1. 基于联邦学习的恶意软件检测方法、基于联邦学习的恶意软件检测系统
+2. （差分隐私+元学习+用户贡献度）联邦学习框架恶意软件检测方法/系统
+3. 基于差分隐私的联邦学习框架
+4. 基于用户贡献度和元学习的联邦学习框架
+5. 基于用户贡献度和联邦元学习的恶意软件检测方法
--- a/工作日志/2021年11月29日-今日计划.md
+++ b/工作日志/2021年11月29日-今日计划.md
@@ -0,0 +1,15 @@
+## 任务
+
+
+
+
+## 收获
+
+1. 意志：觉得我现在做的是有意的，热情，惯性。
+2. 思维：注意力，远离干扰，离手机远点。
+3. 情感：开心、平淡。调节不良情绪，兴趣爱好，冥想日记，聊天。
+4. 体能：睡眠、运动、饮食。
+
+由底层到高层的金字塔，逐渐加强。由高层到底层进行控制。 
+
+张雪峰罗翔大漠叔叔谭警官阿特
--- a/工作日志/毕业设计.md
+++ b/工作日志/毕业设计.md
@@ -3,40 +3,28 @@
 ## 第一章：绪论

 ### 1.1 研究背景和意义
+> 论述原则：所有的描述都是针对恶意软件领域的问题进行说明。恶意软件的隐私问题，恶意软件联邦学习的应用。
+

 1. 安卓系统应用。
 2. 恶意软件泛滥。
-3. 恶意软件检测。基于机器学习的恶意软件检测方案（巴拉巴拉介绍一对机器学习、深度学习在恶意软件检测领域的应用。）尽管机器学习服务取得了成功，但它们的有效性在很大程度上依赖于大量的数据。
-4. 隐私保护问题。
-5. 数据的需求和隐私保护的矛盾（当前恶意软件检测中存在的主要矛盾和问题）。数据成为限制机器学习算法的主要瓶颈。那么广大数据在哪里呢？肯定分散在用户设备上。所以我们提出了基于边缘学习联合学习的分布式机器学习方案。直接在拥有用户的本地设备上进行学习，获得机器学习模型，解决了数据量的问题和利用边缘设备的计算能力。同时传统的机器学习中，在数据搜集过程中侵犯隐私的问题。
-6. 最后提出基于联邦学习的恶意软件检测。结合恶意软件来说。数据的需求：数据隐私保护的需求、数据无标签问题的解决、数据非独立同分布训练模型、数据动态变化问题的解决。恶意软件数据隐私保护进一步提升（研究内容）。恶意软件数据非独立同分布的问题（研究内容）。
-
-7. 针对以上背景，研究基于机器学习的恶意软件检测模型构建方案有十分重要的意义。这种意义主要体现在以下几个方面：
-   1. 扩展了机器学习模型获取数据的范围。利用了边缘设备的计算能力。
-   2. 解决了集中式学习搜集数据困难、搜集数据过程中会侵犯用户隐私的问题。
-   3. 增强恶意软件检测的能力。增强隐私保护能力。
-
-> 说实话，我主要是解决联邦学习中的问题，而非解决恶意软件检测的问题。为了解决数据中存在的问题，而非恶意软件相关的问题。如何让解决的问题与恶意软件检测进行强相关？而非与联邦学习强相关。
->
-> 原始数据+特征提取->训练数据+训练算法->训练模型->恶意软件检测。
->
-> 通过概述训练算法，解决训练数据中的需求和存在的问题，从而改善训练模型的准确率。而非直接更改模型，增强恶意软件检测的结果。需要把这个东西说明。
->
-> 以下是本文章的研究逻辑：
->
-> 传统机器学习方法存在问题（研究背景）---->非独立同分布、隐私保护（研究的意义）---->研究联邦学习（研究方向）----->联邦学习中存在的一系列问题----->非独立同分布、隐私保护（研究目标）------>非独立同分布、隐私保护方法（研究内容）
+3. 恶意软件检测。
+4. 数据的需求和隐私保护的矛盾。
+5. 基于联邦学习的恶意软件检测系统

 ### 1.2 国内外研究现状
 #### 恶意软件的研究现状

 1. 数据集方案（当前流行的主流数据集、恶意软件数据集）
-2. 特征提取方案（）
-3. 模型构建方案（）
-4. 缺乏保护隐私的方案
+2. 特征提取方案（静态特征、动态特征）
+3. 模型构建方案（卷积神经网络、图神经网络）
+4. 检测方案（特征码检测、指纹检测）
+5. 各种方法的优势和不足。缺乏保护隐私的方案。

 #### 联邦学习的研究现状

-* 联邦学习与非独立同分布问题
+* 联邦学习概念和分类
+* 与非独立同分布问题
 * 联邦学习与隐私保护问题
 * 联邦学习系统构建

@@ -47,10 +35,7 @@
 4. 当前解决恶意软件数据非独立同分布问题的方案——现有的非独立同分布数据方案（prox？）
 5. 联邦学习的隐私保护、半监督学习、非独立同分布等开放问题的解决方案。

-#### 对比基线
-1. 恶意软件检测的机器学习和深度学习研究方案（第一层：针对恶意软件检测**领域**对比）
-1. 恶意软件检测中数据扩展+隐私保护的研究方案（第二层：针对数据扩展和隐私保护等**需求**的对比）
-2. 联邦学习的隐私保护、非独立同分布等开放问题的研究方案（第三层：针对隐私泄露问题、非独立同分布**问题**的对比）
+

 ### 1.3 研究内容和研究目标

@@ -72,6 +57,12 @@

 ## 第二章：理论基础和关键技术研究

+### 2.1 恶意软件检测的原理
+
+1. 安卓操作系统
+2. 安卓安全机制
+3. 安卓反编译工具和原理。自己做的部分不包括这些工具，而是利用这些工具提取的特征组合的样式。
+
 ### 2.1 联邦学习原理与联邦平均算法
 > 联邦学习的基础原理。联邦学习的实现方案。联邦学习的分类和数学表示。联邦学习中的开放问题。
 ### 2.2 差分隐私的原理
@@ -81,7 +72,7 @@
 ### 2.3 非独立同分布原理
 > 非独立同分布的原理、表示方法（衡量标准）、产生的影响（论证非独立同分布是联邦学习解决问题中的关键问题。）
 > 对非独立同分布的数学的描述。
-### 2.4 元学习原理
+### 2.4 元学习原理（放到算法那一章）


 ### 2.5 数据处理