mirror of
https://github.com/Estom/notes.git
synced 2026-04-05 20:07:45 +08:00
转移阵地
This commit is contained in:
218
工作日志/2021年11月22日-毕业设计备份.md
Normal file
218
工作日志/2021年11月22日-毕业设计备份.md
Normal file
@@ -0,0 +1,218 @@
|
||||
# 基于联邦学习的恶意软件检测系统研究
|
||||
|
||||
## 第一章:绪论
|
||||
|
||||
### 1.1 研究背景和意义
|
||||
|
||||
1. 安卓系统应用。
|
||||
2. 恶意软件泛滥。
|
||||
3. 恶意软件检测。基于机器学习的恶意软件检测方案(巴拉巴拉介绍一对机器学习、深度学习在恶意软件检测领域的应用。)尽管机器学习服务取得了成功,但它们的有效性在很大程度上依赖于大量的数据。
|
||||
4. 隐私保护问题。
|
||||
5. 数据的需求和隐私保护的矛盾(当前恶意软件检测中存在的主要矛盾和问题)。数据成为限制机器学习算法的主要瓶颈。那么广大数据在哪里呢?肯定分散在用户设备上。所以我们提出了基于边缘学习联合学习的分布式机器学习方案。直接在拥有用户的本地设备上进行学习,获得机器学习模型,解决了数据量的问题和利用边缘设备的计算能力。同时传统的机器学习中,在数据搜集过程中侵犯隐私的问题。
|
||||
6. 最后提出基于联邦学习的恶意软件检测。结合恶意软件来说。数据的需求:数据隐私保护的需求、数据无标签问题的解决、数据非独立同分布训练模型、数据动态变化问题的解决。恶意软件数据隐私保护进一步提升(研究内容)。恶意软件数据非独立同分布的问题(研究内容)。
|
||||
|
||||
7. 针对以上背景,研究基于机器学习的恶意软件检测模型构建方案有十分重要的意义。这种意义主要体现在以下几个方面:
|
||||
1. 扩展了机器学习模型获取数据的范围。利用了边缘设备的计算能力。
|
||||
2. 解决了集中式学习搜集数据困难、搜集数据过程中会侵犯用户隐私的问题。
|
||||
3. 增强恶意软件检测的能力。增强隐私保护能力。
|
||||
|
||||
> 说实话,我主要是解决联邦学习中的问题,而非解决恶意软件检测的问题。为了解决数据中存在的问题,而非恶意软件相关的问题。如何让解决的问题与恶意软件检测进行强相关?而非与联邦学习强相关。
|
||||
>
|
||||
> 原始数据+特征提取->训练数据+训练算法->训练模型->恶意软件检测。
|
||||
>
|
||||
> 通过概述训练算法,解决训练数据中的需求和存在的问题,从而改善训练模型的准确率。而非直接更改模型,增强恶意软件检测的结果。需要把这个东西说明。
|
||||
>
|
||||
> 以下是本文章的研究逻辑:
|
||||
>
|
||||
> 传统机器学习方法存在问题(研究背景)---->非独立同分布、隐私保护(研究的意义)---->研究联邦学习(研究方向)----->联邦学习中存在的一系列问题----->非独立同分布、隐私保护(研究目标)------>非独立同分布、隐私保护方法(研究内容)
|
||||
|
||||
### 1.2 国内外研究现状
|
||||
#### 恶意软件的研究现状
|
||||
|
||||
1. 数据集方案(当前流行的主流数据集、恶意软件数据集)
|
||||
2. 特征提取方案()
|
||||
3. 模型构建方案()
|
||||
4. 缺乏保护隐私的方案
|
||||
|
||||
#### 联邦学习的研究现状
|
||||
|
||||
* 联邦学习与非独立同分布问题
|
||||
* 联邦学习与隐私保护问题
|
||||
* 联邦学习系统构建
|
||||
|
||||
|
||||
1. 恶意软件检测的机器学习和联邦学习方案。
|
||||
2. 当前解决恶意软件数据隐私保护问题的方案——传统的数据隐私保护方法的研究(差分隐私、数据加密)
|
||||
3. 当前解决恶意软件数据无标签问题的方案——恶意软件检测与半监督学习的方案(sephew、基准分类器)
|
||||
4. 当前解决恶意软件数据非独立同分布问题的方案——现有的非独立同分布数据方案(prox?)
|
||||
5. 联邦学习的隐私保护、半监督学习、非独立同分布等开放问题的解决方案。
|
||||
|
||||
#### 对比基线
|
||||
1. 恶意软件检测的机器学习和深度学习研究方案(第一层:针对恶意软件检测**领域**对比)
|
||||
1. 恶意软件检测中数据扩展+隐私保护的研究方案(第二层:针对数据扩展和隐私保护等**需求**的对比)
|
||||
2. 联邦学习的隐私保护、非独立同分布等开放问题的研究方案(第三层:针对隐私泄露问题、非独立同分布**问题**的对比)
|
||||
|
||||
### 1.3 研究内容和研究目标
|
||||
|
||||
1. 联邦隐私保护学习方案——差分隐私、同态加密
|
||||
2. 联邦非独立同分布学习方案——联邦元学习
|
||||
3. 面向恶意软件检测的,基于联邦元学习和增强隐私保护能力的联邦学习框架
|
||||
|
||||
论文贡献(到时候再展开或者压缩内容。)
|
||||
1. 实现了差分隐私,并通过实验验证了差分隐私对参数隐私的保护
|
||||
2. 使用了联邦元学习解决了非独立同分布问题
|
||||
3. 完成了相关的实验验证。证明了算法的有效性。通过对比,验证了系统的可用性和可扩展性。
|
||||
4. 构建了联邦学习框架和恶意软件检测系统。
|
||||
1. 能够使用差分隐私保护用户的隐私,
|
||||
2. 能够针对非独立同分布场景,训练机器学习模型。
|
||||
3. 一个恶意软件特征提取和分析工具.恶意软件检测系统包括特征提取模块和模型检测模块。
|
||||
4. 提供了一个训练框架,以及一个可用的模型。
|
||||
|
||||
### 1.4 论文结构
|
||||
|
||||
## 第二章:理论基础和关键技术研究
|
||||
|
||||
### 2.1 联邦学习原理与联邦平均算法
|
||||
> 联邦学习的基础原理。联邦学习的实现方案。联邦学习的分类和数学表示。联邦学习中的开放问题。
|
||||
### 2.2 差分隐私的原理
|
||||
|
||||
|
||||
> 差分隐私、同态加密方法。实现了多方安全计算。
|
||||
### 2.3 非独立同分布原理
|
||||
> 非独立同分布的原理、表示方法(衡量标准)、产生的影响(论证非独立同分布是联邦学习解决问题中的关键问题。)
|
||||
> 对非独立同分布的数学的描述。
|
||||
### 2.4 元学习原理
|
||||
|
||||
|
||||
### 2.5 数据处理
|
||||
|
||||
#### 2.5.1 恶意软件特征去提取
|
||||
|
||||
> 恶意软件主要分类、恶意软件主要分类的依据和数学表示(接口、行为?)、恶意软件主要的检测方法利用到的原理。
|
||||
> 哪些内容能够表现恶意软件
|
||||
|
||||
> 特征提取技术,特征降维方法。动静态特征的提取方法。
|
||||
|
||||
* 静态特征的提取
|
||||
* 动态特征的提取
|
||||
* 特征降维方法
|
||||
|
||||
#### 2.5.2 恶意软件特征选取
|
||||
|
||||
|
||||
#### 2.5.3 非独立同分布数据集的设置
|
||||
|
||||
### 2.6 神经网络模型
|
||||
|
||||
|
||||
|
||||
|
||||
## 第三章:基于贡献度和元学习的联邦学习算法
|
||||
|
||||
### 3.1 非独立同分布问题的建模
|
||||
|
||||
|
||||
### 3.2 基于贡献度的聚合方法
|
||||
|
||||
* 能够衡量用户的贡献度的方法
|
||||
|
||||
|
||||
### 3.3 基于贡献度和元学习的联邦学习算法
|
||||
|
||||
|
||||
## 第四章:基于差分隐私的联邦学习算法
|
||||
|
||||
### 4.1 威胁模型(数学公式推导)
|
||||
### 4.2 基于差分隐私的联邦学习算法(算法,加入到整体的联邦学习框架中)
|
||||
### 4.3 隐私保护的验证方法(从理论上证明,隐私保护的准确性)
|
||||
|
||||
|
||||
|
||||
## 第五章:恶意软件检测算法的实验与结果
|
||||
|
||||
|
||||
### 5.1 实验环境
|
||||
### 5.2 实验设置
|
||||
### 5.3 实验结果
|
||||
### 5.4 实验结论
|
||||
|
||||
|
||||
|
||||
## 第六章:恶意软件检测系统构建
|
||||
|
||||
### 6.1 系统总体设计
|
||||
|
||||
|
||||
### 6.2 系统详细设计
|
||||
> 存在多个功能模块。按子系统讲解。需要起个合理的名字。
|
||||
> 服务端子系统
|
||||
> * 服务注册和发现模块
|
||||
> * 客户端选择模块
|
||||
> * 控制服务模块
|
||||
> * 聚合服务模块(提供多种聚合服务)
|
||||
> * 训练服务模块(提供多种训练类型的聚合,不同端)
|
||||
>
|
||||
> 控制端子系统
|
||||
> * 训练控制模块
|
||||
> *
|
||||
>
|
||||
> 客户端子系统
|
||||
> * 服务访问模块
|
||||
> * 模型训练模块
|
||||
|
||||
|
||||
1. 特征提取模块
|
||||
2. 训练控制模块
|
||||
3. 网络通信模块
|
||||
4. 训练展示模块
|
||||
5. 实验结果对比模块
|
||||
|
||||
### 6.3 系统测试
|
||||
> 列出测试过程中的关键指标。
|
||||
1. 各个模块的功能测试
|
||||
2. 系统整体的集成测试
|
||||
3. 最终的界面展示
|
||||
## 第七章:结论
|
||||
> 3个研究内容。
|
||||
### 基于贡献度和元学习的联邦学习算法
|
||||
|
||||
### 基于差分隐私的联邦学习算法
|
||||
|
||||
### 基于微服务的恶意软件检测系统
|
||||
|
||||
|
||||
----------------------------
|
||||
|
||||
|
||||
## 补充:存在的问题
|
||||
(1)算法的稳定性存在问题,部分算法收敛过程中出现较大范围的不合理的抖动。
|
||||
(2)算法的最终准确率问题,部分算法无法收敛,由实验设置导致部分算法出现偏差,需要调参,进行更好的对比。
|
||||
(3)基于差分隐私的联邦学习方法进行实验。
|
||||
## 补充:尚未完成的工作
|
||||
(1)新的恶意软件数据集的数据处理工作。
|
||||
(2)针对非独立同分布问题的算法调试工作。需要调试参数,对比算法,画出实验结果对比的图形,
|
||||
(3)基于差分隐私的联邦学习算法实现,并进行实验验证工作。
|
||||
(4)基于微服务技术的恶意软件检测系统中,实现服务的注册和发现。将前端控制和展示服务实现。
|
||||
## 补充:解决问题的思路和措施
|
||||
(1)查找相关的资料,对论文中提到的方法进行实现。
|
||||
(2)针对系统构建中出现的问题,进行详细设计和技术选型,编程实现,并分析效果。
|
||||
(3)对比别人的实验过程,借鉴实验的方法和参数的设置。
|
||||
|
||||
-----------------------------------
|
||||
|
||||
|
||||
## 补充
|
||||
|
||||
### 相关要求
|
||||
1. 按照毕业论文的水准来写研究背景、研究目标、研究内容。把引用的文献写清楚。
|
||||
2. 已经完成的工作尽量详细点。按照毕业论文理论和实验部分的要求来写。
|
||||
3. 每一个技术或者内容的名字现在应该固定下来。不应该这么随意了。
|
||||
4. 对框架和系统部分进行区分。(是算法框架,是一种模式。系统是对这种模式的实现。)
|
||||
5. 命名规范确定一下(基于联邦学习的恶意软件检测系统?面向恶意软件检测的联邦学习系统)搞明白啊,术语不统一自己也很凌乱。
|
||||
|
||||
### 术语规范
|
||||
1. 基于联邦学习的恶意软件检测方法、基于联邦学习的恶意软件检测系统
|
||||
2. (差分隐私+元学习+用户贡献度)联邦学习框架恶意软件检测方法/系统
|
||||
3. 基于差分隐私的联邦学习框架
|
||||
4. 基于用户贡献度和元学习的联邦学习框架
|
||||
5. 基于用户贡献度和联邦元学习的恶意软件检测方法
|
||||
15
工作日志/2021年11月29日-今日计划.md
Normal file
15
工作日志/2021年11月29日-今日计划.md
Normal file
@@ -0,0 +1,15 @@
|
||||
## 任务
|
||||
|
||||
|
||||
|
||||
|
||||
## 收获
|
||||
|
||||
1. 意志:觉得我现在做的是有意的,热情,惯性。
|
||||
2. 思维:注意力,远离干扰,离手机远点。
|
||||
3. 情感:开心、平淡。调节不良情绪,兴趣爱好,冥想日记,聊天。
|
||||
4. 体能:睡眠、运动、饮食。
|
||||
|
||||
由底层到高层的金字塔,逐渐加强。由高层到底层进行控制。
|
||||
|
||||
张雪峰罗翔大漠叔叔谭警官阿特
|
||||
47
工作日志/毕业设计.md
47
工作日志/毕业设计.md
@@ -3,40 +3,28 @@
|
||||
## 第一章:绪论
|
||||
|
||||
### 1.1 研究背景和意义
|
||||
> 论述原则:所有的描述都是针对恶意软件领域的问题进行说明。恶意软件的隐私问题,恶意软件联邦学习的应用。
|
||||
|
||||
|
||||
1. 安卓系统应用。
|
||||
2. 恶意软件泛滥。
|
||||
3. 恶意软件检测。基于机器学习的恶意软件检测方案(巴拉巴拉介绍一对机器学习、深度学习在恶意软件检测领域的应用。)尽管机器学习服务取得了成功,但它们的有效性在很大程度上依赖于大量的数据。
|
||||
4. 隐私保护问题。
|
||||
5. 数据的需求和隐私保护的矛盾(当前恶意软件检测中存在的主要矛盾和问题)。数据成为限制机器学习算法的主要瓶颈。那么广大数据在哪里呢?肯定分散在用户设备上。所以我们提出了基于边缘学习联合学习的分布式机器学习方案。直接在拥有用户的本地设备上进行学习,获得机器学习模型,解决了数据量的问题和利用边缘设备的计算能力。同时传统的机器学习中,在数据搜集过程中侵犯隐私的问题。
|
||||
6. 最后提出基于联邦学习的恶意软件检测。结合恶意软件来说。数据的需求:数据隐私保护的需求、数据无标签问题的解决、数据非独立同分布训练模型、数据动态变化问题的解决。恶意软件数据隐私保护进一步提升(研究内容)。恶意软件数据非独立同分布的问题(研究内容)。
|
||||
|
||||
7. 针对以上背景,研究基于机器学习的恶意软件检测模型构建方案有十分重要的意义。这种意义主要体现在以下几个方面:
|
||||
1. 扩展了机器学习模型获取数据的范围。利用了边缘设备的计算能力。
|
||||
2. 解决了集中式学习搜集数据困难、搜集数据过程中会侵犯用户隐私的问题。
|
||||
3. 增强恶意软件检测的能力。增强隐私保护能力。
|
||||
|
||||
> 说实话,我主要是解决联邦学习中的问题,而非解决恶意软件检测的问题。为了解决数据中存在的问题,而非恶意软件相关的问题。如何让解决的问题与恶意软件检测进行强相关?而非与联邦学习强相关。
|
||||
>
|
||||
> 原始数据+特征提取->训练数据+训练算法->训练模型->恶意软件检测。
|
||||
>
|
||||
> 通过概述训练算法,解决训练数据中的需求和存在的问题,从而改善训练模型的准确率。而非直接更改模型,增强恶意软件检测的结果。需要把这个东西说明。
|
||||
>
|
||||
> 以下是本文章的研究逻辑:
|
||||
>
|
||||
> 传统机器学习方法存在问题(研究背景)---->非独立同分布、隐私保护(研究的意义)---->研究联邦学习(研究方向)----->联邦学习中存在的一系列问题----->非独立同分布、隐私保护(研究目标)------>非独立同分布、隐私保护方法(研究内容)
|
||||
3. 恶意软件检测。
|
||||
4. 数据的需求和隐私保护的矛盾。
|
||||
5. 基于联邦学习的恶意软件检测系统
|
||||
|
||||
### 1.2 国内外研究现状
|
||||
#### 恶意软件的研究现状
|
||||
|
||||
1. 数据集方案(当前流行的主流数据集、恶意软件数据集)
|
||||
2. 特征提取方案()
|
||||
3. 模型构建方案()
|
||||
4. 缺乏保护隐私的方案
|
||||
2. 特征提取方案(静态特征、动态特征)
|
||||
3. 模型构建方案(卷积神经网络、图神经网络)
|
||||
4. 检测方案(特征码检测、指纹检测)
|
||||
5. 各种方法的优势和不足。缺乏保护隐私的方案。
|
||||
|
||||
#### 联邦学习的研究现状
|
||||
|
||||
* 联邦学习与非独立同分布问题
|
||||
* 联邦学习概念和分类
|
||||
* 与非独立同分布问题
|
||||
* 联邦学习与隐私保护问题
|
||||
* 联邦学习系统构建
|
||||
|
||||
@@ -47,10 +35,7 @@
|
||||
4. 当前解决恶意软件数据非独立同分布问题的方案——现有的非独立同分布数据方案(prox?)
|
||||
5. 联邦学习的隐私保护、半监督学习、非独立同分布等开放问题的解决方案。
|
||||
|
||||
#### 对比基线
|
||||
1. 恶意软件检测的机器学习和深度学习研究方案(第一层:针对恶意软件检测**领域**对比)
|
||||
1. 恶意软件检测中数据扩展+隐私保护的研究方案(第二层:针对数据扩展和隐私保护等**需求**的对比)
|
||||
2. 联邦学习的隐私保护、非独立同分布等开放问题的研究方案(第三层:针对隐私泄露问题、非独立同分布**问题**的对比)
|
||||
|
||||
|
||||
### 1.3 研究内容和研究目标
|
||||
|
||||
@@ -72,6 +57,12 @@
|
||||
|
||||
## 第二章:理论基础和关键技术研究
|
||||
|
||||
### 2.1 恶意软件检测的原理
|
||||
|
||||
1. 安卓操作系统
|
||||
2. 安卓安全机制
|
||||
3. 安卓反编译工具和原理。自己做的部分不包括这些工具,而是利用这些工具提取的特征组合的样式。
|
||||
|
||||
### 2.1 联邦学习原理与联邦平均算法
|
||||
> 联邦学习的基础原理。联邦学习的实现方案。联邦学习的分类和数学表示。联邦学习中的开放问题。
|
||||
### 2.2 差分隐私的原理
|
||||
@@ -81,7 +72,7 @@
|
||||
### 2.3 非独立同分布原理
|
||||
> 非独立同分布的原理、表示方法(衡量标准)、产生的影响(论证非独立同分布是联邦学习解决问题中的关键问题。)
|
||||
> 对非独立同分布的数学的描述。
|
||||
### 2.4 元学习原理
|
||||
### 2.4 元学习原理(放到算法那一章)
|
||||
|
||||
|
||||
### 2.5 数据处理
|
||||
|
||||
Reference in New Issue
Block a user