diff --git a/工作日志/2020年10月1日-本月计划.md b/工作日志/2020年10月1日-十月份安排.md similarity index 100% rename from 工作日志/2020年10月1日-本月计划.md rename to 工作日志/2020年10月1日-十月份安排.md diff --git a/工作日志/2020年11月25日-十二月份安排.md b/工作日志/2020年11月25日-十二月份安排.md new file mode 100644 index 00000000..1d6f5241 --- /dev/null +++ b/工作日志/2020年11月25日-十二月份安排.md @@ -0,0 +1,36 @@ +## 第一周 + +### 主要任务 +* 文献综述完成 +* 开题报告完成 + +### 时间安排 + +* 8.00-11.30 + +* 12.30-2.00(刚吃完饭,真的睡不着) + +* 3.00-5.00 + +* 6.00-12.00 + +### 任务计划 + +* 周一-周三:文献综述 +* 周四-周日:开题报告 +(字数肯定很好凑,看来并不是自己所想的那样,关键技术和技术路线,需要很长的内容。或许在开题的时候,就必须直到自己应该怎么做了。) + + +## 第二周 + +### 主要任务 +* 修改开题报告(场景定义明确,即我们到底要完成一个什么样的事情) +* 修改开题报告(技术路线明确,即我们到底通过什么样的手段完成) + +* 网络威胁情报-文献阅读 +* 恶意软件-文献阅读 +* 特征生成和机器学习可解释-文献阅读 + +### 任务安排 + +* \ No newline at end of file diff --git a/工作日志/2020年11月25日-工作安排.md b/工作日志/2020年11月25日-工作安排.md deleted file mode 100644 index 14ef7d44..00000000 --- a/工作日志/2020年11月25日-工作安排.md +++ /dev/null @@ -1,24 +0,0 @@ -这一个月的计划基本泡汤了。 - -现在需要安排剩下的东西。最少阅读50篇,才能完成那个文献阅读和开题报告。 -本月读完文献,下一个月开始撰写文章。 - -周三 -2019-2015年,大约五年的CTI报告核心内容读一遍。(7篇) - - -周四 -关于威胁情报,蒋师兄分享的论文(10篇) - -周五 -关于威胁情报自己搜集的中文文献(7篇) - - -周六 -搜集英文文献(7篇) - -周日 -英文文献(7篇) - - ------------------------------- \ No newline at end of file diff --git a/工作日志/2020年11月26日-说明.md b/工作日志/2020年11月26日-开题启动会.md similarity index 100% rename from 工作日志/2020年11月26日-说明.md rename to 工作日志/2020年11月26日-开题启动会.md diff --git a/工作日志/2020年11月28日-文献综述.md b/工作日志/2020年11月28日-文献综述.md new file mode 100644 index 00000000..624377ba --- /dev/null +++ b/工作日志/2020年11月28日-文献综述.md @@ -0,0 +1,99 @@ +# 学位论文文献综述 + +## 开题题目:基于联邦学习的恶意软件威胁情报处理系统的设计与实现 + +## 摘要+关键词 + +## Abstract+keyword + + +## 基于联邦学习的恶意软件威胁情报处理系统概述 + +> 主要论述这三个关键方向的关系。 +### 威胁情报 +### 恶意软件 +### 联邦学习 + +## 网络威胁情报的研究现状 + + + +### 网络威胁情报的定义 +* 定义 +* 作用 +* 格式 +CTI的研究主要集中在三个方向,包括CTI的生成、CTI共享、CTI利用。 +### 网络威胁情报的生成研究 +* 研究现状 +* 问题 +* 未来发展趋势 +### 网络威胁情报的共享研究 +* 研究现状 +* 问题 +* 未来发展趋势 +### 网络威胁情报的利用研究 + +* 研究现状 +* 问题 +* 未来发展趋势 + +## 恶意软件威胁的研究现状 + +### 恶意软件的数据 +### 恶意软件识别的算法 +### 恶意软件特征生成的方法 +### 恶意软件威胁情报的生成与共享方案研究进展 + +## 联邦学习算法的研究现状 + +### 联邦学习的背景 +### 联邦学习定义 +### 联邦学习的架构和生命周期 +### 联邦学习的应用 +### 联邦学习存在的问题 +### 联邦学习在安卓环境中的应用 +### 联邦学习在恶意软件威胁情报领域的应用进展 + +## 结论 +## 参考文献 + + + +---------- +夏老师给的要求 +* 研究的分支 +* 各分支的理论方法技术研究现状 +* 关键问题和尚未解决的问题 +* 未来的发展趋势 +---------- + +关于文献综述需要做的事情。 + +1. 阅读文献,粗读,对文献做好标记。(首先进行第一步吧),单纯地找到能够使用的文献,明白文献的主要内容,做好标记。 +2. 从“综述”类型的文献开始,按照别人综述的方式撰写文献,引用别人的综述。还是按照citavi工具提供的category格式,整理文献,并完成文献综述的内容部分。 +3. 写文献综述,总共四十篇文章,每篇文章撰写300字左右的文献综述 + +> 可以直接从原本的文献综述出发,按照人家文献综述的内容,直接摘抄,制作自己的文献综述。总之现在的目标是第一个读第一遍文献,一方面为了完成文献综述,另一方面,也为了搞清楚开题相关的内容。 + +--------------------- +联邦学习的撰写方案 + +1. 联邦学习的那一部分可以一联邦学习的那本书作为开始,引用联邦学习那本书上的内容。就可以完成联邦学习的应用现状介绍。 +2. 非引用部分直接摘抄书上的内容。引用部分使用文献阅读后的结果。现在应该从文献的角度,总结文献能够提供的内容,而不是从文献综述的角度,描述文献综述需要什么内容。所以现在就从温馨啊的角度描述文献的主要内容。 +3. 最后再结合几篇文章论述联邦学习在恶意软件威胁情报领域的应用 + +--------------------- +威胁情报的撰写方案 +1. 威胁情报的综述,主要使用三个材料: + 1. SANS威胁情报2020年报告的翻译√ + 2. 两篇中文的网络威胁情报的描述 + 3. 1区的文献的翻译、 + 4. 蒋师兄的网络威胁情调研中能用的内容。 +2. 威胁情报的综述控制在两千到三千字之间。 + + +-------------------- +恶意软件的撰写方案 +1. 根据综述完成恶意软件的基本介绍。 +2. 介绍几个简单的恶意软件分析方案。 + diff --git a/工作日志/2020年11月29日-开题报告.md b/工作日志/2020年11月29日-开题报告.md new file mode 100644 index 00000000..cca35e85 --- /dev/null +++ b/工作日志/2020年11月29日-开题报告.md @@ -0,0 +1,270 @@ +# 基于联邦学习的恶意软件表征系统研究 +> 不要论述威胁情报相关的内容了,关联性不强。 + + +> 1. 可以重点论述的内容:Android、Malware、FL。Android是运行场景,安全问题需求迫切。CTI是目标,生成的IOC威胁情报用于后续的威胁软件分析工作。Malware是对象,需要处理的对象。FL是系统和模式。机器学习,包括机器学习的可解释性工作,需要定义算法的输入输出和算法的选型。 + + +## 1 论文选题的背景与意义1000字 +### 选题背景 +Android场景->恶意软件的研究+Android隐私保护的提出。 + +1. 构建威胁情报共享系统。 +2. 恶意软件数据分析生成恶意软件情报。 +3. 使用联邦在线学习,训练恶意软件情报的自动生成模型。 + +### 选题意义 +> 应该描述存在的为,和解决这些问题的价值。而不是,用什么方案去解决这些问题。这应该是当前研究中有待解决的问题。 +> 不对,这里不应该指出研究中存在的问题,应该给出研究隐私保护、使用人工智能方法、特征提取、在线机器学习的方法的好处。 + +1. √在线学习机制,能够实时监控恶意软件的变化,掌握最新的恶意软件的情报。为恶意软件情报的利用提供高效、快捷、准确的生成方案。 +2. √联邦学习生成恶意软件的特征,保护用户或组织本地的隐私和数据。 +3. ×构建威胁情报共享系统,实现情报实时共享。增强威胁相应系统的响应速度。 +4. √恶意软件识别与人工智能方法的可解释研究,用来增强恶意软件检测与后续的防御工作。 +5. ×与威胁情报领域结合,从恶意软件特征->转换为恶意软件威胁情报->通过共享的方式->参与到恶意软件的分析和检测中->更好的识别恶意软件。 + +因此,研究在保护用户隐私的前提下,使用人工智能方案实现恶意软件特征的提取,具有理论价值与应用价值。 + +## 2 国内外研究现状及发展动态3000字 + +### 国内外研究现状 +* Android恶意软件的研究现状。 +* 机器学习算法可解释性研究现状。 +* 联邦学习算法的研究现状。 + + + +### 有待解决的问题 + +* 传统的方案忽视了隐私保护。无法解决隐私保护与机器学习应用的矛盾。 +* 传统的方案没有给出理论的解释,人们往往只能通过机器学习方法进行分类,却无法解释分类的结果。分类器往往无法部署应用。结合人工智能(机器学习)+可解释性,通过大数据分析得出。自动化构建。恶意软件特征提取方案。 +* 传统的方案无法保证病毒特征的更新。====>联邦在线学习系统,能够跟随最新识别出的病毒,更新联邦学习模型的特征。 +* 联邦学习应用存在的问题: + * 模型中毒 + * 模型隐私。前两个是训练过程中的威胁问题。 + * 用户本地无法提供模型标签。训练本身存在的问题,使用半监督学习,能够推断用户在本地的运行程序的标签。 + + +## 3 论文的研究目标和研究内容1000字 + +### 研究目标 +本课题对恶意软件检测与分析过程进行研究,旨在实现一个基于联邦学习的恶意软件检测与威胁信息生成系统,该系统具有如下特点: +1. 能够在保护用户隐私的前提下,完成深度神经网络模型的训练,模型在恶意软件检测中具有较好的性能和效果。 +2. 生成恶意软件的威胁信息,作为恶意软件判别的指标和依据,包括浅层特征和深层特征组合信息,威胁信息能够解释模型判别的原因。 +3. 能够在线学习新的恶意软件特征,处理具有新特征的恶意软件。 + + +### 研究内容 + +1. 基于深度神经网络的恶意软件检测模型。给出模型效果的评估方法。 +2. 基于神经网络解释方法的威胁信息生成方法 。给出解释方法的评估方法。 +3. 面向隐私保护的联邦在线学习方法。 + +## 4 关键技术和技术难点2000字 + +### 关键技术路线 +> 关键结束应该论述的是流程和原理,是解决问题的流程和原理,可以不与具体的方法挂钩,但是需要是所有方法通用的流程和步骤。 +---------------------------- +神经网络模型的关键技术 +* 神经网络建模技术(把技术流程和原理画出来) + * 特征生成技术(通过特征工程确定特征的维度,利用APK分析工具,提取恶意软件的特征) + * 模型构建技术(怎么建立神经网络模型,调整神经网络模型的参数) + * 模型评估方法(圆下曲线、F1结果) + +---------------------------- +威胁信息生成方法的关键技术 +* 威胁信息生成技术(把技术流程和原理画出来) + * 如何解释神经网络(LIMI算法的原理) + * 如何评估解释结果(Can we trust your explanation) + * 如何规范化解释结果生成威胁信息(IOC) + +---------------------------- +面向隐私保护的联邦在线学习方法的关键技术 +* 联邦在线学习技术(把技术流程和原理画出来) + * 隐私保护技术(防止模型窃取) + * 安全增强技术(防止模型中毒,来自恶意客户端的攻击,增强模型的鲁棒性和安全性) + * 联邦学习技术(各个步骤,如何实现联邦学习过程) + * 在线学习技术(需要搭建在线的学习系统,能够用户选择参与到训练计划当中,确定何时进行再次荀兰) + + +### 技术难点 +> 上述关键技术中存在的难点,可以是重述,从困难的角度解释 +* 客户端数据未标注 +* 数据不对称 +* 数据非独立同分布 +--------------------------- +* 神经网络解释 +--------------------------- +* 梯度保护 +* 安全增强 +* 通信问题 +* 激励问题和选择问题 + + + + +## 5 论文的研究计划100字 + +---------------------- +撰写说明 + +1. 现在的关键问题,是精力过分的集中在了联邦学习上。要做的工作,最重要的一部分还是 + * “恶意软件”识别->恶意软件特征生成(选取与生成)->恶意软件威胁表征(给出可解释性)->恶意软件威胁情报生成(生成规范格式) +2. 关于如何引出想要研究的问题: + * Android普及性---->恶意软件分析的需求+隐私保护的需求---->(恶意软件识别->恶意软件特征生成->机器学习的可解释性)+联邦机器学习。 + * 同样研究成果可以通过多种方式进行扩展。扩展到win领域以及与隐私保护相关的所有领域。 + * 相比于以前的方法的优势,以【1】隐私保护为核心,构建【2】基于威胁情报的恶意软件协同防御体系。单独的恶意软件识别功能,相关的研究落地困难,停留在理论方法的阶段,该面向恶意软件特征的方法,【3】能够提供一中可解释性的辅助手段,对现有的方法进行增强,而不是取代。【4】使用联邦在线学习,还能持续获取千变万化的恶意软件特征。 +3. 接下来主要工作: + * 联邦学习只是系统的实现方案。联邦学习系统/模式。应该这么说。分布式机器学习的方式。 + * 机器学习算法是核心。 + * 算法的可解释性-特征生成是关键。 + * Android是场景,恶意软件是对象,特征生成是目标。 + * > 接下来应该主要研究机器学习和算法的可解释性,在Android恶意软件的场景下进行分析。 +4. 要想完成开题报告,还有许多核心工作要做。 + * 需要重新阅读联邦学习相关的东西。参考其他文章中的联邦学习系统框架,确定自己如何应用联邦在线学习的模型。 + * 需要重新阅读威胁情报相关的文章。给出目标生成的特生描述格式。 + * 需要重新阅读恶意软件相关的文章。给出核心的算法模型,和可解释性的方案。 +5. 需要论述自己的特征选择方案 + * 如何通过主成分分析等方案,分析特征对最终结果的影响。会不会有一个特征对结果没有影响,但是通过另外一个特征的组合对结果产生影响呢?应该给出特征选择的理由,或者通过数学的方法进行特征筛选。 +6. 特征生成的自动化。 + * 可以通过人工判定选取某些特定的特征,但是在训练过程中,特征提取、特征选择、特征生成工作,必须在Android自动完成。(那为什么不将这些生成的特征直接发回中央服务器进行训练呢?因为,数据不能动?google的Gboard训练过程也是啊,直接得到用户下面即将输入的内容,那是肯定不能发送的。) +7. 最后的数据流图 + * 原始数据---->特征工程(特征提取、特征选择、特征生成)---->机器学习算法(神经网络)---->联邦学习系统---->恶意软件分类---->表征生成---->威胁情报生成---->威胁情报共享---->恶意软件检测。 +8. 是否也应该给出训练方案。 + * 这应该是系统构建过程应该给出的内容。可以考虑给出训练方案,应该包括什么内容?那些神经网络训练的方式。 +9. 恶意软件特征技术说明 + * 特征提取,提取能够描述目标的**原始特征**,包括静态和动态特征,决定后续的研究。 + * 特征选择,通过信息量、贝叶斯网络等方法选择合适的特征。 + * 特征生成,通过特征组合、主成分分析等,生成**新的特征**。 + * > 经过DNN训练之后能够得到**软件表征** +10. 关于恶意软件特征生成技术的说明: + * 恶意软件特征生成技术,本来就有。相关的特征工程也做过很多工作。分析那些主要的特征和次要的特征,以及特征的组合对最终结果的影响。 + * 我们应该通过横向对比相同的技术,基于神经网络的特征工程的优越性。 + * 所以说,我们本质上的工作还是包括两部分,恶意软件的特征工程、基于生成特征的恶意软件识别。 + * 其实这是一个循环过程。通过恶意软件的识别,增强恶意软件的特征生成。然后又通过增强的特征,去识别最新的恶意软件。他不能发现一个完全具有新特征的恶意软件。但一旦发现它就能迅速记录恶意软件的特征,并通过威胁情报共享机制,共享出去,增强现有的恶意软件识别工作。 +11. 需要看一下神经网络风格迁移相关的文章或者教程。 + * 训练一个神经网络,记录梵高的画的风格。训练一个神经网络,记录恶意软件的内在联系。 + * 然后将这种风格应用到其他画作上边。然后使用这种内在联系评估其他的软件。 +12. 关于特征工程和基于特征工程的恶意软件检测。我们想做的到底是那一部分。 + * 两者有很严格的区分。我觉得我们相用后边的技术实现前边的过程。 + * 正常的过程是提取特征、利用特征进行恶意软件的分类。我们的目标是利用DNN分类器,提取软件的深度行为特征。 +13. 关于涉及隐私的充分性。 + * 正常情况:检测到恶意软件,将恶意软件本身和相关的所有数据以及恶意软件的行为记录一同上传到中央服务器,在重要服务器由专门的网络分析人员利用分析工具或者机器学习方法,分析恶意软件的特征,必然会侵犯隐私。 + * 应用商店的检测,是利用多种方式对APK进行检测。没办法考虑到第三方应用商店、网页上下载的APK。存在检测的漏洞。 + * 只上传与隐私无关的APK分析证据不足,任意丢失软件的恶意行为信息。 + * 用于恶意软件的检测的数据包含用户的行为操作习惯和软件倾向列表。回报楼用户的行为。 +14. 对于联邦学习应用的两个条件: + * 数据集应该具有较大隐私,所以无法上传; + * 对于有监督学习下的任务,可以很轻易地判断其标签; +15. 关于第二个问题的解决方案: + * 是否标签会在Android本地很容易获得?通过Android本地的恶意软件判别软件? + * 存在两种思路:一种是通过半监督的学习,服务器上有软件的标签?那这种标签又是怎么来的,当面对一个新的软件的时候,又怎么会得到标签呢?这都无所谓,因为这是训练集。 + * 另一种是通过Android本地生成的标签。Android本身也会运行大量的恶意软件识别软件,可以借助其他东西来识别。 + * 主要是为了在保护隐私的情况下获得足够多的数据,又能实时掌握新的样本的特征。本质上还是训练一个能够应用的模型。是一个静态的模型。 +16. 关于用户端没有足够的数据标签的问题解决方案: + * 使用安全的半监督学习方式。在服务器上给定标签,在用户端获取软件运行相关的知识。 + * 或者通过用户本地的恶意软件识别工具,在本地识别是否是恶意软件。 +17. 具体的模型重述: + * 恶意软件特征自动提取模型、基于特征自动提取模型的恶意软件判别模型、基于判别模型的威胁信息自动生成模型 +---------------------- +撰写计划 + +周一下午完成文献综述部分,和最后的计划安排 +1. 恶意软件,应该重新阅读文献,总结别人提到的方法。直接添加文献引用。使用citavi。从中文开始,一点一点往下读,每一特类别提供三篇文献,凑出9篇文献即可。再加上文献综述的文献。 +2. 联邦学习,直接复制黏贴自己的文献综述里的内容即可。包括参考的文献。 +3. 给出其中存在的问题。 + +周一晚上完成的任务 +1. 接下来要做的事情还挺多的。总感觉存在的问题还挺多的。写完开题报告,然后开始做工程。做工程需要大量的学习基础知识,知道怎么完成一个基础的机器学习算法,到使用高级的编程接口实现神经网络。以及联邦学习相关的内容。太多东西了。 +2. 感觉场景的定义,跟我上次开题的时候说的,也没有什么差别,虽然说的不怎么清楚,但本质上就是威胁情报的自动生成模型。恶意软件知识自动获取,然后进行恶意软件特征自动提取模型、基于特征自动提取模型的恶意软件判别模型、基于判别模型的威胁信息自动生成模型。到现在为止,我们也只是知道了要做个什么。对要怎么做这种事情,完全没有思路。我觉得师兄对具体的算法的了解程度跟我可能也不相上下。感觉要给师兄讲明白很多东西,挺麻烦的,我觉得我们两个都应该补充一下机器学习的基础知识,至少在讨论的时候,不会很尴尬。他似乎对一些机器学习基本逻辑基本的思想还不是很了解。虽然我也了解很少,但如果想对算法或模型做更改,必须得对这些东西能够运用熟练。不只是那篇文献中要用的方法,还有周边的方法。能够丰富自己的思想。我觉得机器学习和神经网络,是一门学科,不能当那种简单的工具来使用说明,到最后其中的东西都不是很理解,更别说构建、使用、更改模型了。感觉师兄特别懂得怎么应付夏老师。但是这不是写本子,得有一些真正的知识积累才能做出东西来吧。我觉得我应该提醒他,去补充一些领域的基础知识。跟一个能力比自己强一些的人合作还是好啊。 +3. 研究内容、关键技术应该是具体的实现方案。主要是论证实验方案的可行性。所以现在要做的并不是通过论文,论证自己要做的东西有价值,要做的东西可行。而是通过论文中提到的技术和相关的技术,来构建一个模型实现的框架。所以现在应该补充基础知识,然后搞明白怎么样实现整个系统。 +4. 让我这个老年人来区分一下这几个问题的关系。存在的问题(存在一些当前没有解决的问题)----->研究意义(解决存在的三个问题很有意义)----->研究的目标(有一个产品,这个产品能解决当前存在的问题,)---->研究的内容(实现研究目标的手段) +5. 需要明确一下几个名词的含义:方法、技术、模型、系统 + +周二的任务 +1. 上午:完成文献阅读,确定研究内容-关键技术-技术难点的对应关系 +2. 下午:完成关键技术和技术难点的论述。 +3. 晚上:画好必要的图。 + +----------------------------------- +第二版撰写计划 + +1. 语言和修辞:特有名词确定下来,保持论述的一致性。改善说话的方式,你写的那个句子啊,我自己读都不通顺,太难了。 +2. 总体框架:需要画一个总体框架,将各种技术结合起来。1个是技术的总体框架,另一个是如何使用这些技术完成研究的内容,实现研究的目标。 +3. 论述重点:研究内容改成两点,关键技术保持不变。或者改成三点,论述的侧重点发生变化,你要让别人明白,你要做的主要不是训练一个神经网络模型,检测效率有多高。而是提出了一种面向隐私保护的训练方式和基于神经网络解释方法的威胁信息生成。联邦学习!!!威胁信息生成!!!关键。 论述方式应该改变,将重点放在特征生成上。 +4. 篇幅:减少研究现状中关于恶意软件检测的综述。 +5. √序号和流程:需要给出序号,对于并列的部分可以使用单行序号。 +6. 敲定细节:神经网络模型还是深度神经网络模型,哪种神经网络模型。 +7. 需要将研究内容写得更加详细。需要指明每个研究内容下的研究细节。包括哪些东西。可以改成两个,完全可以。而且后边的东西也需要逐次强调。可以考虑将特征工程,分出来。 +8. 需要用什么样的形式描述研究内容呢。? +9. 不能再添加新的东西了。 + +我们要研究的内容是:生成恶意软件的威胁信息,而不是恶意软件检测。你在论述的时候必须讲明白这点。或者可以在总体架构中说明这点。 + +应该包括两个模型:恶意软件检测模型+威胁信息生成模型====>威胁信息。第一:我们要提出一种神经网络解释方法,理解神经网络的输入输出之间的关系,尝试提取网络中的深度特征。第二,我们实现了一种能够保护隐私的模型训练方法。 + +现在应该做的是从头开始重新构建一边。 + +-------------------------- +关于几个名词之间的关系讨论 + +* 研究问题:提出当前研究存在的问题。 +* 研究意义:解决当前研究中存在的问题很有意义。 +* 研究目标:定量或定性的地解决当前研究中存在的问题。 +* 研究内容:研究的核心内容。另外需要将这些研究内容分成一些独立的内容进行描述。应该是一种算法、模型和机制。 +* 关键技术:实现研究内容中需要用到的技术。应该是方法、技术、系统,如何实现研究内容中提出的模型和方法。 + +在“联邦神经网络”“联邦在线学习”“半监督学习”,联邦神经网络模型。使用联邦学习的方式训练。需要解决模型更新的问题-构建在线学学习系统。需要解决数据没有标签的问题-使用半监督学习的训练方式。------后边的应该是一种子技术和子方法。 + +-------------------------------- +方法与模型的理解 +1. 神经网络模型,可以包括特征生成方法、神经元设计方法、训练方法等。模型是一种集合。 +2. 模型pattern更像是一种数学上的定义,是一堆数学公式的集合。 +3. 方法Methodology更像是一种实现上的途径,是一对技术或者实践的路径。 +4. 在论述上进行区分。划定这些名词。模型是静态的,方法是动态的,是一个流程,是模型的实现。系统是这一切的集合。 + +---------------------------------- +模型命名规范 + +神经网络模型部分需要用到的内容: +* 特征提取工具 +* 恶意软件检测方法 +* 深度神经网络模型 + +威胁信息生成部分需要用到的内容: + + +联邦在线半监督学习部分需要用到的内容: +* 基础分类器(使用多个简单的机器学习分类器,利用服务器上分类号的标签进行自训练。然后将训练好的姿训练分类器发送到客户端,对数据集进行标记,并挑选误差最小的标记点,作为有监督学习的数据。) +* 联邦学习框架、技术() +* 在线学习系统 + + + +突然感觉时间不够了。得多看点东西,好好准备开题报告。跟吕老师说的一样,把很多东西在开题报告中直接说明白。 + + + +------------------------------- +画图问题 +1. 突出数据的隐私性问题。(隐私数据如何标注) +2. 联邦学习的模型融合过程?可以画一下。 +3. 半监督学习未标注的数据和已标注的数据相互结合?可以突出一下。 +4. 图和图的说明要清晰,有个图的小图没有名字。 +5. 模型解释需要画出神经网络解释的过程。 +6. 论述语言还需要修改, +7. 文献综述中我们改成本文 + +> 关于作图的一点心得。作图主要有两个方向:图标化和图形化。图标化即利用像素文件构成的图片图标作为主体,进行说明,更加通俗易懂,适合在PPT上展示,给别人说明流程。图形化多使用方形、圆形等图形+文字构成的框图作为主体,更适合在word中给别人说明数据流、系统结构等原理。两者的侧重应该不同。 +> 可以在昨晚开题报告后,学习一周的PPT,word已经基本掌握了所有的技巧了吧,毕竟专门学过。以后用得到数据处理,再去学Excel电子表格,或者Python、MATLAB做数据处理。 + +------------------------------ +1. √修改开题报告 + 1. √根据夏老师所标记的内容有所侧重(联邦在线学习和恶意软件的广告) + 2. √威胁信息的定义以及生成的相关内容。 +2. ×画图。蒋师兄发的那些图有点好看,可以模仿一下。因为有涉及到太多的原理算法相关的内容。可以日后做结题的时候这样画。 +3. √做PPT。今天只需要完成PPT的框架。 +4. PPT的美化 +5. PPT讲稿 +6. 开题报告修改,添加图相关的描述。 + diff --git a/工作日志/2020年11月2日-论文阅读工具.md b/工作日志/2020年11月2日-论文阅读工具.md index d9ab2cc9..900a69f6 100644 --- a/工作日志/2020年11月2日-论文阅读工具.md +++ b/工作日志/2020年11月2日-论文阅读工具.md @@ -58,7 +58,7 @@ 1. 泛读评分 1. 摘要、引言、结论、图表 2. 黄色、红色、summary、comment标注 - 3. 星级。content context。读完之后给出 + 3. 星级&评价。content context。读完之后给出 4. 删除不想相关的论文 2. 精读3星 1. 精读原理 @@ -67,3 +67,13 @@ 1. category(与论文关系) 2. quotation(引用方式) +## citavi使用教程 + +### 文献导入 + +1. 直接输入文献内容,添加文献文件和信息。 +2. 通过ID添加(arxivID、pumid、doi、isbn) +3. 直接添加pdf自动生辰给相关信息 +4. 通过citavi picker从网页上抓取。 + +> 在导入文献的时候,可以通过手动的方式补全文献信息、content内容信息、context管理信息。并且导入这些信息的时候,citavi能够自动更新参考文献的格式。 \ No newline at end of file diff --git a/工作日志/2020年11月30日-问题和工作.md b/工作日志/2020年11月30日-问题和工作.md new file mode 100644 index 00000000..5407ee67 --- /dev/null +++ b/工作日志/2020年11月30日-问题和工作.md @@ -0,0 +1,36 @@ +对于场景定义中存在的问题 + +1. 我们是要解决“数据孤岛”的问题还是“数据隐私性”的问题。应该是两者都有?我们的训练数据是具有“强隐私性”特征的吗?所谓的那些软件的Manifest中的权限声明等数据,是不需要下载到客户端就可以知道的数据,而且与用户的本地运行环境没有关系。 +2. 我们的训练数据是否是在安卓本地生成并带有标记的吗?确定应用场景是面向不同的安卓用户的联邦学习?还是面向不同安全厂商的联邦学习?前者是cross-device,后者是cross-silo跨组织的联邦学习。恶意软件的数据为什么会在Android设备上打上标签。 +3. 我觉得联邦迁移学习不应该成为我们的研究方向,当前需要解决的问题已经够多了。就算每个设备的数据都一样,都是具有标签的完整的数据,需要做的工作也足够了。“联邦迁移学习”的实现,本身就是一个博士毕业的工作量(迁移真没有那么容易)。 +4. 我们到底是在共享什么?数据本身具有特征,能够被机器学习模型记录下来。我们只要共享模型本身,就相当于共享这一类恶意软件的特征。利用这个特征(或者是模型)去识别新的恶意软件。当新的恶意软件被识别后,又能迅速添加到模型当中,模型又能去识别新的恶意软件。 +5. 如何说明从联邦学习系统的搭建、基于机器学习的恶意软件分类、基于机器学习的恶意软件特征提取、网络威胁情报生成、网络威胁情报共享的一系列工作之间的相关性。感觉对网络威胁情报的了解之后。感觉上,这里的每一个工作都是一篇论文,我们要做的是那一部分工作。 + +-------------- +关于具体要做的事情还是有很多不理解的东西 + +1. 存在一个很严重的问题,很多时候其他人应该是能够构建一个模型或者系统,用于对恶意软件分类。而我们要做的是构建一个系统,生成一个构建模型的方案模型是持续改进的,并不是为了分类,而是为了不断地继续应用下去。所以我们的目标如果是一个系统的话,应该通过哪种方式评价系统的好坏?如果是模型的话,应该对比其他的软件分类模型,对比软件分类模型,给出模型的精确率和召回率,可以实现模型好坏的评价。 + + +------------------------------ + +11月26日讨论 + +1. 我觉得联邦学习的目标是训练一个能用的模型,使用这个模型去解决问题。它的目标不是训练过程,训练过程只能让模型更准确,更准确的完成模型本来应该完成的任务。它不是一个自洽的系统,能够提取病毒的特征,当恶意软件的特征发生变化时,联邦学习就能用新的数据去训练,让模型能够识别具有新特征的目标。 +2. 蒋师兄认为,联邦学习是一个能追踪病毒变化过程的工具,当病毒发生变化后,能够通过联邦学习的训练过程,迅速发现病毒的特征变化。 +3. 以上观点,有一定的道理。联邦学习的输出可能有两种结果,一种是恶意软件识别(检测),一种是恶意特征生成。软件识别是一个“分类问题”,恶意特征生成,是一个“生成问题”,两者是不一样,应该通过不同的学习方法来实现。所以在一开始就确定学习模型的输入输出至关重要。 +4. 另外有一点,联邦在线学习,确实能够通过学习过程掌握恶意软件的特征。(模型本身相当于计算某种数据特征,记录数据的特点和数据之间的关联特征)。但是模型是黑盒,这些特征通过神经网络进行描述,所以如果要输出这些特征,需要对神经网络进行解释。 +5. 按照以上思路,确实能够理解,并且有一个很合理的解释。难点主要体现在一下方面 + * 机器学习技术范式的确定 + * 联邦学习的细节问题的研究 + * 联邦在线学习系统的实现 + * 神经网络的可解释。 +6. 我想说的是否有另外一种思路。直接使用数据挖掘方法,提取数据中隐含的特征,而不是通过神经网络进行分类,然后对神经网络进行可解释性的演技。特征提取的方法?数据挖掘的方案?将特征看做是一个“生成问题”,但是没有足够的训练数据,即没有输出标签。神经网络学习到的的就是隐含的内在的特征,所以这种特征,从本质上来说,确实是无法表述的。但是可以结合特征工程和关联分析相关领域的方法,对神经网络得出的结果加以说明和分析。 + +--------------------------- +关于研究恶意软件的流程说明 + +1. 特征选取 +2. 机器学习算法 +3. 联邦学习系统 +4. 评估方式(最新的论文可以) diff --git a/工作日志/2020年12月5日-毕设.md b/工作日志/2020年12月5日-毕设.md new file mode 100644 index 00000000..34b7d9e2 --- /dev/null +++ b/工作日志/2020年12月5日-毕设.md @@ -0,0 +1,26 @@ +# 基于联邦学习的恶意软件表征系统研究 + +## 第一章:绪论 + +### 背景 + +### 国内外研究现状 + +### 研究内容 + +### 论文结构 + +## 第二章:相关技术研究 + +## 第三章:基于DNN的特征生成模型 + + +## 第四章:模型的解释方法与评估 + + +## 第五章:联邦学习系统的构建 + +## 第六章:模型的效果评估 + + +结论 \ No newline at end of file diff --git a/工作日志/2020年9月28日.md b/工作日志/2020年9月28日-九月份安排.md similarity index 100% rename from 工作日志/2020年9月28日.md rename to 工作日志/2020年9月28日-九月份安排.md diff --git a/文献阅读/2020.09.09-2020.09.10.md b/文献阅读/2020.09.09-2020.09.10.md index 00fc9874..be5cee6e 100644 --- a/文献阅读/2020.09.09-2020.09.10.md +++ b/文献阅读/2020.09.09-2020.09.10.md @@ -2,11 +2,10 @@ > * 上一篇文献阅读主要解决了如何构建联邦学习模型 > * 这一篇文献阅读主要解决联邦学习模型中的问题。包括: -> * 模型的鲁棒性问题。(恶意攻击和破坏) +> * 模型的鲁棒性和安全性问题。(恶意攻击和破坏) > * 非独立同分布数据提高准确性、有效性和训练速度 -> * 数据的隐私保护和安全问题。(隐私保护) -> * 去中心化的联邦学习与模型共享。(在完全对称的联邦学习中的激励机制。) -> * 区块链联邦学习,通过区块链交换和验证设备。 +> * 数据的隐私保护为题。(隐私保护) +> * 去中心化的联邦学习与模型共享。(在完全对称的联邦学习中的激励机制。)区块链联邦学习,通过区块链交换和验证设备。 ## 1 模型攻击:鲁棒性联邦学习研究的最新进展 diff --git a/文献阅读/文献检索说明.md b/文献阅读/文献检索说明.md index 2c0f8c3a..f4c79569 100644 --- a/文献阅读/文献检索说明.md +++ b/文献阅读/文献检索说明.md @@ -37,7 +37,10 @@ * [Intechopen 免费科技文献](intechopen.com/) 免费科技文献 * [LolMyThesis 哈佛毕业论文分享网站](http://lolmythesis.com/) LolMyThesis是个由哈佛学院学生创办的论文分享网站 * [Semantic Scholar](https://link.zhihu.com/?target=https%3A//www.semanticscholar.org/) 计算机类文献搜索,现在已经包含各类文献的检索。 +* [Web of Service](http://apps.webofknowledge.com/WOS_GeneralSearch_input.do?product=WOS&search_mode=GeneralSearch&SID=U1JkOcSdJZX56Oeh8bR&preferencesSaved=&editions=SCI)专门用来监理所SCI收录的文章 +* [Engineering Village](https://www.engineeringvillage.com/search/quick.url)专门用来检索EI收录的文章 +* ### 论文下载工具 * [SCI hub](http://tool.yovisun.com/scihub/) 一个万能的其他网站的文献下载工具 @@ -45,12 +48,12 @@ ### 期刊级别 * [CCF推荐排名](http://www.ccf.org.cn/xspj/gyml/ ) -* [SCI分区]() -* [EI分区]() -* [InCites-JCR](https://jcr.incites.thomsonreuters.com/JCRJournalHomeAction.action?SID=B2-iGXCfThZQgRLkUKsX5Ra0ex2BUvD9RAifI-18x2dfZFTYnOC1wXsoix2BefrHXeAx3Dx3Dx2FvLbnHsuPpux2FfRWjxx9BXMgx3Dx3D-iyiHxxh55B2RtQWBj2LEuawx3Dx3D-1iOubBm4x2FSwJjjKtx2F7lAaQx3Dx3D&refineString=null&SrcApp=IC2LS&timeSpan=null&Init=Yes&wsid=Y1CglXKO3QvQC7fqKGs) -* [Web of Service](http://apps.webofknowledge.com/WOS_GeneralSearch_input.do?product=WOS&search_mode=GeneralSearch&SID=U1JkOcSdJZX56Oeh8bR&preferencesSaved=&editions=SCI)专门用来监理所SCI收录的文章 +* [汤森路透(JCR)分区]() +* [中科院分区]() -* [Engineering Village](https://www.engineeringvillage.com/search/quick.url)专门用来检索EI收录的文章 +--------------- + +* [InCites-JCR](https://jcr.incites.thomsonreuters.com/JCRJournalHomeAction.action?SID=B2-iGXCfThZQgRLkUKsX5Ra0ex2BUvD9RAifI-18x2dfZFTYnOC1wXsoix2BefrHXeAx3Dx3Dx2FvLbnHsuPpux2FfRWjxx9BXMgx3Dx3D-iyiHxxh55B2RtQWBj2LEuawx3Dx3D-1iOubBm4x2FSwJjjKtx2F7lAaQx3Dx3D&refineString=null&SrcApp=IC2LS&timeSpan=null&Init=Yes&wsid=Y1CglXKO3QvQC7fqKGs) * [Scimago Journal & Country Rank](https://link.zhihu.com/?target=http%3A//www.scimagojr.com/index.php) * [Google scholar的metrics](https://link.zhihu.com/?target=https%3A//scholar.google.fi/citations%3Fview_op%3Dtop_venues%26amp%3Bhl%3Den)