不管是开卷考试需要在几百页的 PPT 里瞬间定位知识点,还是写论文时需要在几十篇参考文献中寻找佐证,传统的 Ctrl+F 往往力不从心:

  • 记不清确切关键词,搜不到内容。
  • 语义相关但用词不同,直接被忽略。
  • 搜出来几百个结果,还得一个一个点进去看。

为了解决这个问题,我开发了 Smart Search PDFs —— 一个基于语义向量(Embeddings)和 BM25 算法的本地化 PDF 混合搜索工具。

简单来说:它既能像 Google 一样理解你的语义,又能像 Ctrl+F 一样精确匹配关键词,而且全部在本地运行,无需 API Key,保护隐私。

项目地址: MrAMS/Smart-Search-PDFs

觉得不错的话就帮我点个 Star​吧~


它能做什么?

Smart Search PDFs 对 PDF 文档进行智能切分和向量化,支持以下搜索模式:

  1. 混合搜索(智能推荐): 结合了语义理解和关键词匹配。不仅能搜到字面一样的,还能搜到意思相近的。结果自动按相关度排序。
  2. 语义搜索: 哪怕你输入的词文中没出现,只要意思对,就能搜到。(基于 Jina AI 的 Embeddings 模型)。
  3. BM25 关键词: 经典的倒排索引算法,不仅是精确匹配,还能处理词频权重。
  4. 多粒度切分(New):
  • 页面级:适合 PPT、幻灯片(搜出来是一整页)。
  • 段落级:适合双栏论文、学术文章(搜出来是具体段落)。
  • 固定长度:适合小说、长篇报告。


核心特性一览

  • 所见即所得:搜索结果点击即达,右侧预览窗口自动裁剪白边,高亮显示搜索词。
  • 结果可视化:使用彩色标签(精确、部分、语义、关键词)告诉你为什么这条结果被搜出来。
  • 本地端侧:无需 GPU/API,使用 FastEmbed 和轻量级模型,CPU 也能流畅运行,无需 OpenAI API Key。
  • 大文件支持:动态加载机制,几百页的文档滚动流畅不卡顿。

📌 转载信息
转载时间:
2026/1/5 17:42:18

标签: Smart Search PDFs, PDF Search, Embeddings, BM25, Semantic Search

添加新评论