最新消息:

文件类型识别工具汇总,恶意软件分析和数字取证必备

佳软 yeeach 564浏览 0评论

在日常办公、网站运营、网络安全、逆向工程和数字取证领域,准确识别文件类型至关重要。

例如:

  • 各大操作系统都通过文件后缀来关联文档缺省打开的应用
  • 论坛/社交媒体对用户上传附件格式检测
  • 网盘对用户上传分享的文件是否违规检测
  • 对用户发送、接收的邮件/消息附件进行病毒检测

由于文件后缀可以任意修改,依靠文件后缀并不能正确识别文件类型,一般不会通过后缀来识别文件类型。经常有人在通过网盘、聊天软件分享文件时候,手工将分享的文件后缀修改,以为就能绕过系统检测,其实毫无意义。

某一种文件类型是有固定特征的,通常由文件存储的二进制格式开头的几个字节(大多数为 2-4 字节)标识,一般称之为 File signature (或者 Magic Number)。要正确识别一个未知文件的类型,需要维护一个文件类型格式数据库,例如 List of file signatures 、GCK’S FILE SIGNATURES TABLE 、filesignatures.net。但这些数据库一般都是由个人维护,受限于维护人员的时间精力,更新不一定及时。

汇总推荐几个常用的文件类型识别工具。

1. Detect It Easy (DIE):逆向工程界的“瑞士军刀”

Github:https://github.com/horsicq/Detect-It-Easy

Detect It Easy (DIE) 是一款久负盛名的跨平台文件类型识别工具,深受逆向工程师和恶意软件分析师的喜爱。

技术原理:主要依赖签名和启发式脚本。不仅能通过特征码判断文件类型,还能通过内置的 JavaScript 脚本引擎对文件进行深度扫描。

适用场景:恶意软件分析、软件逆向工程、深度文件取证。

 

die-in-browser:

https://github.com/xoreaxlmbdx/die-in-browser

将Detect It Easy 完整移植到浏览器中运行的开源项目。使用 WebAssembly + x86 模拟器,使得所有分析逻辑 在浏览器端本地执行,不需要将文件上传到服务器。特别适合安全性/隐私要求较高的场景。

 

 

2. Google Magika:AI 驱动的文件类型识别

GitHub : https://github.com/google/magika

Magika 是 Google 在 2024 年开源的基于深度学习的文件类型检测工具。

技术原理:抛弃了传统的特征码匹配,转而采用深度学习模型。Magika 核心是一个仅 1MB 左右的紧凑型神经网络。

核心优势:

  • 极高准确率:在识别文本文件(如代码、配置文件)和二进制文件方面,准确率高达 99% 以上,远超传统的 file 命令。
  • 极致速度:虽然是 AI 模型,但推理速度极快,甚至在 CPU 上也能达到毫秒级响应。
  • 置信度输出:它会给出一个概率分值,让自动化流程能更聪明地判断是否该信任识别结果。

适用场景:大规模云端文件过滤、Web 开发者自动化工具、CI/CD 流程中的代码识别。

 

 

3、在线工具

https://filestype.com/

 

在使用上可以组合使用,例如:

前端快速判断 + 隐私分析:使用 die-in-browser 在浏览器内快速检测可疑文件,避免上传风险。

后端批处理 + 自动化分类:使用 Magika 对大量文件进行智能分类与预过滤,再根据结果派发给 Detect It Easy (DIE) 等精准分析

安全防护大规模接入:将 Magika 嵌入邮件附件扫描、存储系统前置判定流程,提高类型检测准确性与转发效率。

 

 

 

更多格式工具

 

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址