
相信很多人都有这样的经历:为了找一段“那个闯红灯的蓝色卡车”或是“路边突然窜出的小狗”的视频,而在几百 GB 的行车记录仪、家庭监控录像里手动翻找数小时。
虽然目前基于RAG的文本语义搜索已经足够强大、准确,但针对视频的语义搜索目前还是采用传统的字幕模型(Captioning)方案:先用 AI 把每一帧画面转换成文字描述,再搜索这些文字。
2026 年 3 月 10 日,Google DeepMind 发布了 Gemini Embedding 2 的公开预览版,是 Google 首个”原生多模态”嵌入模型,能够将文本、图像、视频、音频和 PDF 文档统一映射到同一个 3072 维语义向量空间中。
Gemini Embedding 2 用于视频搜索,与传统“视频转文字(OCR/Captioning + STT)”路径的核心差别在于:前者是“原生多模态直接嵌入”,后者是“多步中间转换后嵌入”。
Gemini Embedding 2 的优势:
- 几乎无信息丢失:传统路径中,字幕模型经常“说不清”复杂动作(如“红色卡车突然切入盲区”),OCR 只能抓静态文字,STT 忽略语气、背景音、情绪。Gemini 直接从像素和波形学习,能捕捉视觉组成、运动轨迹、时序关系、音频非语言线索。
- 纯视觉场景更强:没有对话或文字的视频(如行车记录仪纯画面),传统路径容易生成泛化描述,而 Gemini 能直接“看懂”动作。
- 跨模态更自然:文本查询“绿灯左转时被后车追尾”能直接匹配视频片段,无需人工提示工程。
开发者 ssrajadh 开源了基于Gemini Embedding 2 的视频语义搜索工具 SentrySearch,专为行车记录仪、家庭监控等长视频设计。只需要输入一句自然语言描述(如“红色卡车闯红灯”),SentrySearch就能从几小时的 MP4 视频中自动剪辑出最匹配的片段。无需手动拖进度条,无需转录音频或生成字幕,直接用 AI “看”视频。
SentrySearch:https://github.com/ssrajadh/sentrysearch
Hacker News 讨论:https://news.ycombinator.com/item?id=47503617
SentrySearch 的核心卖点是纯视频嵌入 + 语义检索:
- 自然语言搜索:直接用中文或英文描述场景,就能找到对应片段
- 原生视频嵌入:直接对比视频流与文本,精度更高,且能捕捉动态特征
- 自动剪辑:搜索到匹配项后,工具会自动调用 ffmpeg 切分出最相关的视频片段
- Tesla 专属增强:支持官方 dashcam 格式,自动叠加速度、时间、GPS 位置(通过 OpenStreetMap 反向地理编码),生成带 HUD 的视频
- 本地索引:使用 ChromaDB 在本地存储视频向量,保护隐私且搜索延迟极低
- 支持完全本地模型:支持切换到 Qwen3-VL-Embedding(2B 或 8B 量化版),无需 API Key,全程离线运行
- 高效索引:内置了“静止帧过滤”功能。如果画面没有变化(比如车停在车库里),它会跳过索引,从而节省 Gemini API 的调用费用
在 Hacker News 的讨论帖中,社区展现了复杂的情绪:
一方面,开发者们对其技术优雅性感到兴奋:仅用几百行 Python 代码就实现了曾经需要大型监控系统才能完成的功能。
另一方面,隐私担忧成为了讨论的焦点。有人指出,这种“亚秒级”语义搜索视频的能力如果被大规模滥用,意味着城市监控将变成一个真正的“全景监狱(Panopticon)”。警方不再需要查阅录像,只需搜索“穿着红色连帽衫并朝西走的男子”,系统就能瞬时定位。