网络安全大模型AutoAudit助力恶意内容检测

目录
一.项目背景
二.项目简介
三.数据集组织
四.未来计划
一.项目背景
开启了大语言模型发展的新方向,各大互联网巨头纷纷进入赛道 。各大高校也加大对LLM的研发应用 。在AGI领域的统治地位暂时无可撼动;因此针对特定领域(-)的大语言模型是发展的必然趋势 。继清华发布法律大模型,哈工大发布医学大模型,华东师范大学发布教育大模型后,或许我们的项目是代表山东大学在网络安全垂直领域完成的第一个大语言模型(根据和收录内容)
无独有偶的是,我们发现微软也有类似定位产品——,但微软也只是公布了Demo而没有实际可应用的产品 。
或许这也代表着引入大语言模型到网络安全审计领域的技术路线是可行的 。
通过引入这样的网络安全语言模型,我们可以期待在网络安全领域取得更大的突破 。它将成为安全专业人员的得力助手,提供准确、快速的分析和预测,帮助应对不断演进的网络威胁 。
为了便于交互,应对实际的安全审核应用场景,我们将模型与进行耦合,搭建了一个安全扫描的平台(前端参考了所提供的模板) 。如果您想直接下载模型,请访问直接获取权重 。
我们也在上发布了我们的项目,并且详细讲解了更多关于数据集组织和模型训练部署的信息,欢迎访问我们的主页(喜欢的话也请打个star) 。
二.项目简介
项目描述:我们训练部署了一个专精于网络安全领域的类模型,在回答几大特定安全领域上的专业能力媲美商业模型(比如和文心一言) 。并以模型为基础,集成安全扫描工具,实现了支持多模态输入(例如PDF,XSS,代码,SQL语句)的安全审计平台 。
最终的效果: 平台可成功部署在一网页站点上,并且支持多模态的输入 。平台可作为代理服务器类型软件实时对恶意代码进行审计,并在审计平台以日志形式生成审计结果,网页管理员可对任意外来文件和代码的审计结果进行查询与分析、以及重新审计 。语言模型还能够以安全报告为基准,继续回答用户安全问题 。
1.上传文件或代码进行审查;
2.查看历史扫描记录并搜索指定文件;
3.查看扫描报告;
4.根据报告与大语言模型进行交互:
三.数据集组织
我们采用了数据集组织方法Self-,该方法结合了人工标注和自我生成的数据 。数据集主要来自于、、安全网站、公开的安全漏洞数据集组成,随后经过清洗、数据增强等来构造对话数据 。数据集严格按照模型数据集格式组织,分为,input,三部分,我们规定在输出中应当包含对具体内容的分析(),安全评级(label),安全风险(risk),以及对应的解决方案() 。以下是场景样例:
t
thisany:"" or( TIME ) --"
1. : The SQLto beSQLbya sleepusing the '' .\n2. label: high\n3. risk: Thethattheis theof the ''the .\n4. :inputandtoSQL.
SQL分析(特化)
thiscodeposesrisks:“ \ json\ os\ \ \n\ :\n def init(self, ip, port):\n self. = .(., .)\n self..((ip, port))"
1. : Thecodea class named '' with an'init'. The class sets up ato aIPand port.\n2. label: Low\n3. risk: The givencodehas a lowrisk. Ita, which is a. , theriskon theof the class and its usage.\n4. :that the '' class and its usage havein place, such asinput ,,, and error , torisks.
代码分析(特化)
What is theof theList (CRL)?
Theof theList (CRL) is to list theby the(CA)theirdate,that theynobe .
安全知识问答(泛化)
当前我们训练的模型数据集构成比例为:
四.未来计划
强化安全领域的逻辑推理能力,尝试在更大的模型基座上进行相应的训练:在网络安全领域,特别是我们所选择的恶意代码分析,SQL注入,以及XSS分析等细分场景下,对于模型的输入Token有着较大的要求,目前的初级模型输入大约为500-,显然无法达到我们的需求 。目前正在考虑使用或者作为新的基底模型 。