标签 字幕 下的文章

利益相关声明:作者与文中产品有直接的利益相关(开发者、自家产品等)

Matrix 首页推荐 

Matrix 是少数派的写作社区,我们主张分享真实的产品体验,有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章,展示来自用户的最真实的体验和观点。 

文章代表作者个人观点,少数派仅对标题和排版略作修改。


我想有不少人和我一样并不喜欢 B 站视频中 up 主的带货广告,例如千篇一律的某转,某按摩仪。

从技术上来说,带货广告不像常规在网页中被植入的横幅广告或者「牛皮癣」广告那样容易被识别。因为浏览器的广告拦截插件是通过某些技术特征来识别广告的。例如广告在渲染时需要发送请求到特定的域名来获取广告的文案以及图片,那么插件只需要将阻止所有指向这些域名的请求被发出即可。

可带货广告不同,它不存在什么技术特征,它与 up 主的视频内容浑然天成。想单纯的从技术特征这条路来解决很难。

目前有一类针对带货类广告的拦截插件,例如 SponsorBlock。它依赖的是「众包」,即依赖观众人肉识别到视频中的广告区间段,然后提交到一个共享的数据库中。

sponsorblock使用截图

上图就是 SponsorBlock 的使用截图,在该视频的时间轴最尾端你可以看到一段高亮的区域,该时间段即为广告时间。而在右侧你提交你识别的到的关于该视频的广告时间段。

开发一个 B 站的 SponsorBlock 的确也是一个跳过带货广告的办法,但我始终觉得它并不是万全之策,因为它依赖于用户的自驱力,依赖于规模效应。并且很明显也只有被多数人观看到的头部视频才能够享受到该「待遇」。

AI 的出现改变了这一切.

如何利用 AI 跳过带货广告

我编写了一个开源插件来实现利用 AI 来跳过带货广告,后面我会详解其工作原理,在正式开始前先使用一个视频来看看效果:

它的实现很简单——通过字幕。

根据我对 B 站播放页面的技术分析,B站的视频会分两次加载视频的字幕信息,第一次是字幕的元信息。之所以称之为元信息,是因为它不包含字幕本身,而是包含围绕字幕的有关其他信息,例如该字幕属于哪国语言,该字幕是否由 AI 生成。在获取的到元信息之后才会正式加载字幕。以上述视频为例,字幕的原始数据如下:

不过请注意,网站只会给登录用户返回字幕信息,所以想要使用该插件请务必提前登录网站

当然如上图所示的原始字幕信息是无法喂给 AI 的,我通过代码对字幕的原始数据进行了二次转化,转化后的字幕格式示例如下:

[0.82-2.06]:哇来了哇;[2.06-5.48]哦让我们去看看这个今天就吃一桶螺蛳粉了;[5.48-9.41]哇这哇哦终于吃螺蛳粉了;

再接着使用下方提示词将转化之后的字幕内容发送给 AI:

接下我会分享给你一段视频字幕,该段字幕由多个字幕语句组成。 

每一句字幕包含三部分内容,分别是起始时间,结束时间,以及字幕内容,格式如下:[{起始时间}-{结束时间}]:{字幕内容}。语句之间由分号(;)隔开。 

帮助我分析其中哪些是与视频无关的广告内容,给出其中连续广告内容起始时间和终止时间。我可能还会分享给你视频的标题以及视频的描述,用于辅助你判断广告内容。

如果存在广告内容,请将广告的起止时间返回给我,返回格式为:{startTime: number, endTime: number};如果不存在广告内容,返回 null 

字幕内容如下

这组提示词其实还有提升的空间,我还可以通过向AI提供更丰富的信息来协助它判断广告内容为何,例如视频的标题和描述。所以的最终喂给AI的最终提示词中实际上是包含视频的标题以及描述的:

……

字幕内容如下: xxxx

视频标题如下: xxxx

视频描述如下: xxx

使用方式

该插件可以在 Chrome 浏览器的应用商店找到,直接搜索「Bilibili Ad Killer」即可。并且它还是一个开源项目,如果你是一名开发人员的话可以克隆项目到本地,选择自行编译然后加载到 Chrome 浏览器中。

如上图所示,目前它处于一个「短小精悍」的状态,提供的选项所见即所得。可能唯一需要解释的是「忽略小于 5 分钟的视频」这个选项——之所以提供这个选项是因为我发现对于短视频AI的过滤的效果并不是那么好,甚至会出现误判,所以默认暂且不识别五分钟以内的视频。

唯一需要用户提供的是一个 Gemini API Key。现阶段还仅支持 Gemini 模型的原因是,一方面我的精力有限想要兼容更多的模型需要投入更多的时间精力;另一方面也受到一个技术上的限制还在设法解决。

未来如果时间允许的话,还是希望能够做到广告数据的共享,毕竟每一次的广告识别对个体来说都是白花花的金钱。

最后如果你并不清楚申请 Gemini API Key,可以参考我自己的整理的这篇插件的完整使用教程

Enjoy 😜

      文/差评君

      种子文件命名里的秘密

      当你在网上下载一部影片的时侯,一般就会看见一串很长的文件名。

      在这个名子里,除了包括书名、剧集、分辨率、编码格式或者发片小组之外,其实还潜藏着这部影片的来源。

      如果文件名具有“WEB-DL”字符,那你的片源多半是从各大视频网页的付费视频库里下载到的。而且一般状况下,“WEB-DL”片源的清晰度会低于“HDTV”。

      除此此外,你常常能看见的也有“BDrip”、“CAM”、“TS”、“”、“R5”等等版本的盗版影片。

      但你有没有想过,这些分门别类的盗版资源,到底是如何来的?而盗版一部影片,又要经过这些步骤呢?

      明天跟你们扒一扒那些盗版影片的市场内幕。

      盗版影片的制做流程

      说起盗版电影,估计在座的诸位小伙伴都不陌生。

      而这几年,盗版和版权问题始终倍受争议,许多人对盗版也是抱着复杂的态度,可以说是又爱又恨,百感交集。毕竟,我们就是伴随着盗版长大的一代啊。

      早期的盗版基本集中在录像带和光碟上,而互联网时代我们接触最多的就是各大字幕组贡献的bt种子,像国外影迷很熟识的“伊甸园”、“破烂熊”、“人人影视”,二次元老司机熟悉的“澄空学园”、“HKG”、“漫游”。

      他们的名子或许会发生在文件名的最终,这也造成粉丝会误以为这种资源都是出自字幕组之手。其实她们不仅贡献了优秀的字幕以外,也仅仅现成资源的装卸工,片源的原始压制另有其人。

      盗版市场真正的大鳄们

      如果你对盗版市场稍有知道,你必定听说过,或者,这类名字,他们都是国内顶级的盗版资源发行机构和小组。

      这种由超级黑客们构成的组织,最早被FBI等政府部委统称为Warez,意为计算机领域的违法交换著作权,后来她们又被称为“0day”发行组chatgpt,因为她们能在正版资源公布的24小时内就破解出高品质电影。

      而这种小组把自己称为“TheScene”,“TheScene”既有“业界”的含义,同时只是一个非赢利性盗版制作发行社区。

      这个社区诞生于上世纪七十年代,内部有少于一百个活跃团队,随便拉出一个小组都干过不少惊天动地的事儿。

      例如专攻PC硬件的“DOD”小组,他们曾在谷歌正式公布95的两周前,就把资源置于了峰会上。

      而在影视资源领域,可以说是规模和妨碍力都最大的小组。

      这个小组的方针就是在最短的时间内,甚至是在影片公映和正版DVD发行之前,把最高品质的破译资源公布到网上。

      而最让引以为傲的,是她们曾在2003年公布了一个有史以来最风靡影视圈的影片盗版资源——《指环王:王者归来》

      这波操作大大制约了正版光碟的产量,各大影片集团的伤亡可以说是不计其数黑客纯情,所以编剧方提起她们简直是恨得牙痒痒。

      他也因而被改判30个月的监禁,同时还应当支付40,000美元的赔付金。

      只是这位柔弱小堂弟刑满释放后,并没有“走上邪路”,而是又重操起了旧业。

      并且还在2017年发起了一项筹款,要出版一本书来记录自己的盗版生涯,揭露盗版行业是怎样执法队员斗智斗勇的。

      只能说这父子真把自己当普罗米修斯了。。。

      资源共享系统巨头——海盗湾▼

      有专门压制盗版资源的小组超级黑客电影,当然就有系统让这种资源共享。

      那就不得不提及业内的泰斗级网站——“海盗湾”。

      2003年,一个来自丹麦的反版权民间组织这个网页,站内凝聚了无数制片小组破译出来的一手资源。

      在被取缔之前,这里可谓就是互联网上触手可及的法外之地。

      在2008年的时侯,网站上的种籽数量就早已超出了100万培训脚本,网页同时在线数量少于了1千万。

      它以前普及到了哪些程度?

      海盗湾里的盗版教材可以说是挽救了一个又一个贫苦的学院生。。。

      其实了,有流量的地方才能变现。甚至在06年,国内互联网还没怎样发展的时侯,“海盗湾”就能靠着在网站上卖广告,每月净赚600,000丹麦欧元。

      只是,相较于躲在网路背后秘密行动的公布小组,海盗湾可以说是直接曝露在阳光下干着违规的勾当,目标十分显眼,追踪起来也比松散的theScene组织容易不少。

      因此要是从组建那天开始数,海盗湾已经被端过不晓得多少次了。。。

      而如今的海盗湾,虽然仍然能在BT网站中称帝称霸,但也不得不始终和国外政府打游击战,网站也时常发生死机等弊端,活得是愈发越坎坷。甚至她们还曾计划买下一个国家来回迁服务器,结果只众筹到几万英镑,建国大业也无法推动了。

      盗版背后的科技

      截至到昨天,全球的“theScene”成员总数量也只是几百人,但全网流传的“0day”资源已然达到了千万级别。想要在最短时间,压制出质量最高的资源,只能靠组织成员高超的破译技术了。

      光盘时代的破译技术▼

      在流媒体还没发展出来之前,盗版资料的来源主要有两种——影院盗录和DVD解密拷贝

      而拿着录像机、手机回到影院盗录,是最低级的一种方式,因为这么出来的资源模糊、昏暗,音效也贼差。但这些方式简洁粗暴,除了快,一无是处,很多时侯只是为了抢先爽一下,所以也称“枪版”。

      比盗录稍微高级一些的,是对正版DVD进行破译处理。

      “日防夜防,盗版难防”的道理,各大影片生产商不是不懂。DVD加密就是她们对盗版组织最固执的抗衡。

      ()的加密算法,这套算法借助生成密码来保护DVD不被第三方拷贝,并且须要特定的机器就能播放。

      或许这些玩过DVD的男子伴都还记得,一些美版的DVD就无法在国外的机器上播放,这就是CSS给DVD增加了区域限制。

      但CSS问世仅仅五年就被一个16岁的丹麦小哥给破解了,大厂的倔犟也被蔑视的体无完肤。

      而随着互联网的演进超级黑客电影,DVD逐渐被淘汰,我们也迈入了流媒体时代。发行组的盗版技术也跟随与时俱进了。

      数字时代的破译技术▼

      如今各大流媒体都辅以一系列DRM()的数字内容版权保护科技,甚至许多出版社和硬件厂家也都在使用DRM。比如亚马逊,索尼,微软,苹果。

      而像HBO、、腾讯视频这样的主流视频系统,更是辅以了DRM里安全级别最高,最难被破译的Widevine加密方法。

      前脚刚研制出Widevine,“theScene”组织后脚就早已拿出了破译工具,还是全手动的。

      只要在特定的服务器上装上这个软件,盗版窝点分分钟才能破除完一部数字系统上1080P的影片,甚至需要比原文件小30%。

      并且这种软件可以借助算法自动在流媒体系统下载内容,进行破译,再打包上传到资源网页,整个过程不须要人工参与。

      像《权游》、《黑镜》这种热播剧,官方上线还不到24小时,你才能在各类资源网页上看见高清熟肉了。

      院线影片的破译技术▼

      不仅这种硬核破解技术,盗版市场也有一个究极大招,那就是在影城安插“内鬼”,这个方式听起来很科幻,但也许一点不罕见。

      还记得后面提及的小组里工作多年的汤普森吗?

      他不仅是“theScene”组织的组员,还有另外一个身分——影院电脑软件供应商。

      运用这个身分,他本人可以时常在影城上线之前领到片源。

      这类能否直接领到影片资源的脚色,在组织里被也称(供应商),他们晚上的身分可能是一名普通的审片员,电影公司的剪接师,或者是影城的展映员,而到了夜里,他们就成了某盗版压制小组的知名成员。

      国外也发生过这么的状况,像在2019年几部新年档巨片,《流浪宇宙》、《飞驰人生》、《疯狂的外星人》等等,在公映之后,就遭受过大体量的盗版。也是由于影院的展映员擅自夹带、处理片源,才让盗版资源流出。

      而版权方应对这种提前泄漏的资源,可以说是非常头痛了,因为这些伤亡一旦产生,基本就没有挽救的余地。

      尽管这几年咱们国家的严打盗版的幅度仍然在强化,但盗版行为依然是屡禁不止。

      盗版完全隐没的全球存在吗?

      一方面,我们明白盗版是错的。

      另一方面,又很想为这种盗版组织叫好。

      或许盗版问题始终是个两难的选用。

      而这个弊端的关键,是版权政策的目的

      版权的本意,保护的只是唯有创作者,还有大众的利益,保护创作者仅仅方法,保证了她们的利益,继而能够有更多的作画动力,更好的服务整个社会。