假设要学习一门计算机课程, 例如 CS 164 或者 CS 110L, 有朋友来分享一下现阶段的 AI 工具生成笔记的最佳实践吗?

我之前在没有 AI 辅助时的做法:

  1. 把课程的 Lectures/Slides/Homework/Assignments 原版英文材料转换成 markdown 格式笔记文件, 创建一个 github 仓库同步.
  2. 对教程视频使用 whisper 模型生成英文字幕.
  3. 在看课程视频和做 Homework 或者 Assignments 的时候对照着 markdown 格式的笔记增加自己的理解和附注, 将视频中的关键图示截图或者做 Assignments 时的关键思路插入笔记中.

这样做的好处是可以最大程度信任自己的笔记内容, 因为这些信息要么是课程原版, 要么是经过自己测试验证过的. 这样一来就可以作为自己的高可信度知识库材料, 以后就可以随时检索, 不用费心分辨大模型给出的可能有误的信息.

但这种方式的最大缺点是会花费非常多的时间在笔记整理上. 例如一节课程大约是 1 到 1.5 小时, 如果要产出完全覆盖视频内容且包括视频中所有关键图示的笔记文件, 差不多需要 3-5 倍的时间. 所以我就想是否能让 AI 来解决这个整理笔记的体力劳动过程, 把更多时间投入到思考概念和解决方案中.

现在遇到的问题是, 我试过的一些现有的云端 AI 工具 (例如 NoteBookLM) 都只是基于视频的字幕文件或者视频的语音来生成笔记内容, 几乎没有视频的图像信息, 因此也就无法将视频中的关键图示插入笔记中. NoteBookLM 可以做到上传课程材料和视频文件, 然后向他提问概念, 但是做不到完整提取视频信息并生成笔记文件. 对于长度超过 1 小时的单个章节课程视频, 云端工具也是大概率不支持一次性或者分段处理的.

不知道有没有利用开源模型来完成这种从课程材料和课程视频生成非常详尽的图文笔记的开源项目? 实在没有的话只能自己动手写一个试试了, 目前的思路是用 qwen3:14b + glm-ocr/deepseek-ocr + ffmpeg 来实现,但是估计以我手上能用的硬件(Tesla P40)跑到冒烟才能跑完一个视频的内容.

标签: none

添加新评论