[开源自荐] 开卷考试 / 论文搜索神器 - 基于 Eembeddings 和 BM25 的 PDF 文件混合搜索软件
不管是开卷考试需要在几百页的 PPT 里瞬间定位知识点,还是写论文时需要在几十篇参考文献中寻找佐证,传统的 Ctrl+F 往往力不从心:
- 记不清确切关键词,搜不到内容。
- 语义相关但用词不同,直接被忽略。
- 搜出来几百个结果,还得一个一个点进去看。
为了解决这个问题,我开发了 Smart Search PDFs —— 一个基于语义向量(Embeddings)和 BM25 算法的本地化 PDF 混合搜索工具。
简单来说:它既能像 Google 一样理解你的语义,又能像 Ctrl+F 一样精确匹配关键词,而且全部在本地运行,无需 API Key,保护隐私。
项目地址: MrAMS/Smart-Search-PDFs
觉得不错的话就帮我点个 Star吧~
它能做什么?
Smart Search PDFs 对 PDF 文档进行智能切分和向量化,支持以下搜索模式:
- 混合搜索(智能推荐): 结合了语义理解和关键词匹配。不仅能搜到字面一样的,还能搜到意思相近的。结果自动按相关度排序。
- 语义搜索: 哪怕你输入的词文中没出现,只要意思对,就能搜到。(基于 Jina AI 的 Embeddings 模型)。
- BM25 关键词: 经典的倒排索引算法,不仅是精确匹配,还能处理词频权重。
- 多粒度切分(New):
- 页面级:适合 PPT、幻灯片(搜出来是一整页)。
- 段落级:适合双栏论文、学术文章(搜出来是具体段落)。
- 固定长度:适合小说、长篇报告。
核心特性一览
- 所见即所得:搜索结果点击即达,右侧预览窗口自动裁剪白边,高亮显示搜索词。
- 结果可视化:使用彩色标签(精确、部分、语义、关键词)告诉你为什么这条结果被搜出来。
- 本地端侧:无需 GPU/API,使用
FastEmbed和轻量级模型,CPU 也能流畅运行,无需 OpenAI API Key。 - 大文件支持:动态加载机制,几百页的文档滚动流畅不卡顿。
![[开源自荐] 开卷考试 / 论文搜索神器 - 基于 Eembeddings 和 BM25 的 PDF 文件混合搜索软件1](https://xiaohack.oss-cn-zhangjiakou.aliyuncs.com/typecho/images/2026/01/05/20260105174210_695b8772d9885.jpeg!mark)
![[开源自荐] 开卷考试 / 论文搜索神器 - 基于 Eembeddings 和 BM25 的 PDF 文件混合搜索软件2](https://xiaohack.oss-cn-zhangjiakou.aliyuncs.com/typecho/images/2026/01/05/20260105174215_695b8777c6998.jpeg!mark)