转移阵地

This commit is contained in:
Estom
2021-12-01 15:32:08 +08:00
parent 534a527c3d
commit 5530e6f9e2
3 changed files with 252 additions and 28 deletions

View File

@@ -0,0 +1,218 @@
# 基于联邦学习的恶意软件检测系统研究
## 第一章:绪论
### 1.1 研究背景和意义
1. 安卓系统应用。
2. 恶意软件泛滥。
3. 恶意软件检测。基于机器学习的恶意软件检测方案(巴拉巴拉介绍一对机器学习、深度学习在恶意软件检测领域的应用。)尽管机器学习服务取得了成功,但它们的有效性在很大程度上依赖于大量的数据。
4. 隐私保护问题。
5. 数据的需求和隐私保护的矛盾(当前恶意软件检测中存在的主要矛盾和问题)。数据成为限制机器学习算法的主要瓶颈。那么广大数据在哪里呢?肯定分散在用户设备上。所以我们提出了基于边缘学习联合学习的分布式机器学习方案。直接在拥有用户的本地设备上进行学习,获得机器学习模型,解决了数据量的问题和利用边缘设备的计算能力。同时传统的机器学习中,在数据搜集过程中侵犯隐私的问题。
6. 最后提出基于联邦学习的恶意软件检测。结合恶意软件来说。数据的需求:数据隐私保护的需求、数据无标签问题的解决、数据非独立同分布训练模型、数据动态变化问题的解决。恶意软件数据隐私保护进一步提升(研究内容)。恶意软件数据非独立同分布的问题(研究内容)。
7. 针对以上背景,研究基于机器学习的恶意软件检测模型构建方案有十分重要的意义。这种意义主要体现在以下几个方面:
1. 扩展了机器学习模型获取数据的范围。利用了边缘设备的计算能力。
2. 解决了集中式学习搜集数据困难、搜集数据过程中会侵犯用户隐私的问题。
3. 增强恶意软件检测的能力。增强隐私保护能力。
> 说实话,我主要是解决联邦学习中的问题,而非解决恶意软件检测的问题。为了解决数据中存在的问题,而非恶意软件相关的问题。如何让解决的问题与恶意软件检测进行强相关?而非与联邦学习强相关。
>
> 原始数据+特征提取->训练数据+训练算法->训练模型->恶意软件检测。
>
> 通过概述训练算法,解决训练数据中的需求和存在的问题,从而改善训练模型的准确率。而非直接更改模型,增强恶意软件检测的结果。需要把这个东西说明。
>
> 以下是本文章的研究逻辑:
>
> 传统机器学习方法存在问题(研究背景)---->非独立同分布、隐私保护(研究的意义)---->研究联邦学习(研究方向)----->联邦学习中存在的一系列问题----->非独立同分布、隐私保护(研究目标)------>非独立同分布、隐私保护方法(研究内容)
### 1.2 国内外研究现状
#### 恶意软件的研究现状
1. 数据集方案(当前流行的主流数据集、恶意软件数据集)
2. 特征提取方案()
3. 模型构建方案()
4. 缺乏保护隐私的方案
#### 联邦学习的研究现状
* 联邦学习与非独立同分布问题
* 联邦学习与隐私保护问题
* 联邦学习系统构建
1. 恶意软件检测的机器学习和联邦学习方案。
2. 当前解决恶意软件数据隐私保护问题的方案——传统的数据隐私保护方法的研究(差分隐私、数据加密)
3. 当前解决恶意软件数据无标签问题的方案——恶意软件检测与半监督学习的方案sephew、基准分类器
4. 当前解决恶意软件数据非独立同分布问题的方案——现有的非独立同分布数据方案prox
5. 联邦学习的隐私保护、半监督学习、非独立同分布等开放问题的解决方案。
#### 对比基线
1. 恶意软件检测的机器学习和深度学习研究方案(第一层:针对恶意软件检测**领域**对比)
1. 恶意软件检测中数据扩展+隐私保护的研究方案(第二层:针对数据扩展和隐私保护等**需求**的对比)
2. 联邦学习的隐私保护、非独立同分布等开放问题的研究方案(第三层:针对隐私泄露问题、非独立同分布**问题**的对比)
### 1.3 研究内容和研究目标
1. 联邦隐私保护学习方案——差分隐私、同态加密
2. 联邦非独立同分布学习方案——联邦元学习
3. 面向恶意软件检测的,基于联邦元学习和增强隐私保护能力的联邦学习框架
论文贡献(到时候再展开或者压缩内容。)
1. 实现了差分隐私,并通过实验验证了差分隐私对参数隐私的保护
2. 使用了联邦元学习解决了非独立同分布问题
3. 完成了相关的实验验证。证明了算法的有效性。通过对比,验证了系统的可用性和可扩展性。
4. 构建了联邦学习框架和恶意软件检测系统。
1. 能够使用差分隐私保护用户的隐私,
2. 能够针对非独立同分布场景,训练机器学习模型。
3. 一个恶意软件特征提取和分析工具.恶意软件检测系统包括特征提取模块和模型检测模块。
4. 提供了一个训练框架,以及一个可用的模型。
### 1.4 论文结构
## 第二章:理论基础和关键技术研究
### 2.1 联邦学习原理与联邦平均算法
> 联邦学习的基础原理。联邦学习的实现方案。联邦学习的分类和数学表示。联邦学习中的开放问题。
### 2.2 差分隐私的原理
> 差分隐私、同态加密方法。实现了多方安全计算。
### 2.3 非独立同分布原理
> 非独立同分布的原理、表示方法(衡量标准)、产生的影响(论证非独立同分布是联邦学习解决问题中的关键问题。)
> 对非独立同分布的数学的描述。
### 2.4 元学习原理
### 2.5 数据处理
#### 2.5.1 恶意软件特征去提取
> 恶意软件主要分类、恶意软件主要分类的依据和数学表示(接口、行为?)、恶意软件主要的检测方法利用到的原理。
> 哪些内容能够表现恶意软件
> 特征提取技术,特征降维方法。动静态特征的提取方法。
* 静态特征的提取
* 动态特征的提取
* 特征降维方法
#### 2.5.2 恶意软件特征选取
#### 2.5.3 非独立同分布数据集的设置
### 2.6 神经网络模型
## 第三章:基于贡献度和元学习的联邦学习算法
### 3.1 非独立同分布问题的建模
### 3.2 基于贡献度的聚合方法
* 能够衡量用户的贡献度的方法
### 3.3 基于贡献度和元学习的联邦学习算法
## 第四章:基于差分隐私的联邦学习算法
### 4.1 威胁模型(数学公式推导)
### 4.2 基于差分隐私的联邦学习算法(算法,加入到整体的联邦学习框架中)
### 4.3 隐私保护的验证方法(从理论上证明,隐私保护的准确性)
## 第五章:恶意软件检测算法的实验与结果
### 5.1 实验环境
### 5.2 实验设置
### 5.3 实验结果
### 5.4 实验结论
## 第六章:恶意软件检测系统构建
### 6.1 系统总体设计
### 6.2 系统详细设计
> 存在多个功能模块。按子系统讲解。需要起个合理的名字。
> 服务端子系统
> * 服务注册和发现模块
> * 客户端选择模块
> * 控制服务模块
> * 聚合服务模块(提供多种聚合服务)
> * 训练服务模块(提供多种训练类型的聚合,不同端)
>
> 控制端子系统
> * 训练控制模块
> *
>
> 客户端子系统
> * 服务访问模块
> * 模型训练模块
1. 特征提取模块
2. 训练控制模块
3. 网络通信模块
4. 训练展示模块
5. 实验结果对比模块
### 6.3 系统测试
> 列出测试过程中的关键指标。
1. 各个模块的功能测试
2. 系统整体的集成测试
3. 最终的界面展示
## 第七章:结论
> 3个研究内容。
### 基于贡献度和元学习的联邦学习算法
### 基于差分隐私的联邦学习算法
### 基于微服务的恶意软件检测系统
----------------------------
## 补充:存在的问题
1算法的稳定性存在问题部分算法收敛过程中出现较大范围的不合理的抖动。
2算法的最终准确率问题部分算法无法收敛由实验设置导致部分算法出现偏差需要调参进行更好的对比。
3基于差分隐私的联邦学习方法进行实验。
## 补充:尚未完成的工作
1新的恶意软件数据集的数据处理工作。
2针对非独立同分布问题的算法调试工作。需要调试参数对比算法画出实验结果对比的图形
3基于差分隐私的联邦学习算法实现并进行实验验证工作。
4基于微服务技术的恶意软件检测系统中实现服务的注册和发现。将前端控制和展示服务实现。
## 补充:解决问题的思路和措施
1查找相关的资料对论文中提到的方法进行实现。
2针对系统构建中出现的问题进行详细设计和技术选型编程实现并分析效果。
3对比别人的实验过程借鉴实验的方法和参数的设置。
-----------------------------------
## 补充
### 相关要求
1. 按照毕业论文的水准来写研究背景、研究目标、研究内容。把引用的文献写清楚。
2. 已经完成的工作尽量详细点。按照毕业论文理论和实验部分的要求来写。
3. 每一个技术或者内容的名字现在应该固定下来。不应该这么随意了。
4. 对框架和系统部分进行区分。(是算法框架,是一种模式。系统是对这种模式的实现。)
5. 命名规范确定一下(基于联邦学习的恶意软件检测系统?面向恶意软件检测的联邦学习系统)搞明白啊,术语不统一自己也很凌乱。
### 术语规范
1. 基于联邦学习的恶意软件检测方法、基于联邦学习的恶意软件检测系统
2. (差分隐私+元学习+用户贡献度)联邦学习框架恶意软件检测方法/系统
3. 基于差分隐私的联邦学习框架
4. 基于用户贡献度和元学习的联邦学习框架
5. 基于用户贡献度和联邦元学习的恶意软件检测方法

View File

@@ -0,0 +1,15 @@
## 任务
## 收获
1. 意志:觉得我现在做的是有意的,热情,惯性。
2. 思维:注意力,远离干扰,离手机远点。
3. 情感:开心、平淡。调节不良情绪,兴趣爱好,冥想日记,聊天。
4. 体能:睡眠、运动、饮食。
由底层到高层的金字塔,逐渐加强。由高层到底层进行控制。
张雪峰罗翔大漠叔叔谭警官阿特

View File

@@ -3,40 +3,28 @@
## 第一章:绪论
### 1.1 研究背景和意义
> 论述原则:所有的描述都是针对恶意软件领域的问题进行说明。恶意软件的隐私问题,恶意软件联邦学习的应用。
1. 安卓系统应用。
2. 恶意软件泛滥。
3. 恶意软件检测。基于机器学习的恶意软件检测方案(巴拉巴拉介绍一对机器学习、深度学习在恶意软件检测领域的应用。)尽管机器学习服务取得了成功,但它们的有效性在很大程度上依赖于大量的数据。
4. 隐私保护问题
5. 数据的需求和隐私保护的矛盾(当前恶意软件检测中存在的主要矛盾和问题)。数据成为限制机器学习算法的主要瓶颈。那么广大数据在哪里呢?肯定分散在用户设备上。所以我们提出了基于边缘学习联合学习的分布式机器学习方案。直接在拥有用户的本地设备上进行学习,获得机器学习模型,解决了数据量的问题和利用边缘设备的计算能力。同时传统的机器学习中,在数据搜集过程中侵犯隐私的问题。
6. 最后提出基于联邦学习的恶意软件检测。结合恶意软件来说。数据的需求:数据隐私保护的需求、数据无标签问题的解决、数据非独立同分布训练模型、数据动态变化问题的解决。恶意软件数据隐私保护进一步提升(研究内容)。恶意软件数据非独立同分布的问题(研究内容)。
7. 针对以上背景,研究基于机器学习的恶意软件检测模型构建方案有十分重要的意义。这种意义主要体现在以下几个方面:
1. 扩展了机器学习模型获取数据的范围。利用了边缘设备的计算能力。
2. 解决了集中式学习搜集数据困难、搜集数据过程中会侵犯用户隐私的问题。
3. 增强恶意软件检测的能力。增强隐私保护能力。
> 说实话,我主要是解决联邦学习中的问题,而非解决恶意软件检测的问题。为了解决数据中存在的问题,而非恶意软件相关的问题。如何让解决的问题与恶意软件检测进行强相关?而非与联邦学习强相关。
>
> 原始数据+特征提取->训练数据+训练算法->训练模型->恶意软件检测。
>
> 通过概述训练算法,解决训练数据中的需求和存在的问题,从而改善训练模型的准确率。而非直接更改模型,增强恶意软件检测的结果。需要把这个东西说明。
>
> 以下是本文章的研究逻辑:
>
> 传统机器学习方法存在问题(研究背景)---->非独立同分布、隐私保护(研究的意义)---->研究联邦学习(研究方向)----->联邦学习中存在的一系列问题----->非独立同分布、隐私保护(研究目标)------>非独立同分布、隐私保护方法(研究内容)
3. 恶意软件检测。
4. 数据的需求和隐私保护的矛盾
5. 基于联邦学习的恶意软件检测系统
### 1.2 国内外研究现状
#### 恶意软件的研究现状
1. 数据集方案(当前流行的主流数据集、恶意软件数据集)
2. 特征提取方案()
3. 模型构建方案()
4. 缺乏保护隐私的方案
2. 特征提取方案(静态特征、动态特征
3. 模型构建方案(卷积神经网络、图神经网络
4. 检测方案(特征码检测、指纹检测)
5. 各种方法的优势和不足。缺乏保护隐私的方案。
#### 联邦学习的研究现状
* 联邦学习与非独立同分布问题
* 联邦学习概念和分类
* 与非独立同分布问题
* 联邦学习与隐私保护问题
* 联邦学习系统构建
@@ -47,10 +35,7 @@
4. 当前解决恶意软件数据非独立同分布问题的方案——现有的非独立同分布数据方案prox
5. 联邦学习的隐私保护、半监督学习、非独立同分布等开放问题的解决方案。
#### 对比基线
1. 恶意软件检测的机器学习和深度学习研究方案(第一层:针对恶意软件检测**领域**对比)
1. 恶意软件检测中数据扩展+隐私保护的研究方案(第二层:针对数据扩展和隐私保护等**需求**的对比)
2. 联邦学习的隐私保护、非独立同分布等开放问题的研究方案(第三层:针对隐私泄露问题、非独立同分布**问题**的对比)
### 1.3 研究内容和研究目标
@@ -72,6 +57,12 @@
## 第二章:理论基础和关键技术研究
### 2.1 恶意软件检测的原理
1. 安卓操作系统
2. 安卓安全机制
3. 安卓反编译工具和原理。自己做的部分不包括这些工具,而是利用这些工具提取的特征组合的样式。
### 2.1 联邦学习原理与联邦平均算法
> 联邦学习的基础原理。联邦学习的实现方案。联邦学习的分类和数学表示。联邦学习中的开放问题。
### 2.2 差分隐私的原理
@@ -81,7 +72,7 @@
### 2.3 非独立同分布原理
> 非独立同分布的原理、表示方法(衡量标准)、产生的影响(论证非独立同分布是联邦学习解决问题中的关键问题。)
> 对非独立同分布的数学的描述。
### 2.4 元学习原理
### 2.4 元学习原理(放到算法那一章)
### 2.5 数据处理