很多客户跟我反馈自己进行备案申报的时候:每次退回来的理由都不一样。第一次说材料不全,第二次说描述不清,第三次说风险评估不够详细。最近有个客户说了一句让我难忘的话:“我感觉我们在裸奔,但我们不知道该穿什么衣服。”

所以我把大模型备案的所有要求掰开了揉碎了,整理出这份100条自查清单。如果对你有用,点赞关注我,下一期出算法备案自查清单。

生成式人工智能 #大模型备案 #算法备案 #网络安全 #AI产品安全应用

第一部分:主体资质与基本信息(1-15条)

这一部分是基础中的基础,备案要先证明你是个合法公司。

1. 营业执照是否在有效期内?

2. 营业执照经营范围是否包含相关业务。 经营范围里有没有“技术服务”“软件开发”之类的字样?没有的话去工商变更。

3. 法人代表身份证明是否清晰可读?

4. 注册资本是否与业务规模匹配。 不是说必须多少,但一个注册资本10万的公司做个千亿参数大模型,审核人员看了会怎么想?

5. 公司注册地址与实际运营地址是否一致。 不一致的话准备好租赁合同和情况说明。

6. 是否已经取得ICP许可证?

7. 是否有算法备案号。 大模型备案通常需要先完成算法备案,双备案制的路你得一步一步走。

8. 安全负责人是否已经任命。 这个岗位必须有,而且要在公司内部正式任命,不能是空降兵。

9. 安全负责人的简历是否符合要求。 通常需要三年以上互联网安全相关工作经验。

10. 安全负责人的联系方式是否畅通。 审核期间可能会打电话联系,别留个永远不接的号码。

11. 是否有专门的算法安全团队。 不需要多少人,但需要有明确的组织架构和职责分工。

12. 是否建立了算法安全管理制度。 制度不是墙上的标语,是要实际执行的流程和规范。

13. 公司股权结构是否清晰。 穿透到实际控制人,外资成分要特别说明。

14. 是否涉及外商投资。 如果有,需要符合外商投资相关法律法规,这块要单独准备材料。

15. 是否有境外上市计划或VIE架构。 这个涉及国家安全审查,需要提前评估和准备。

第二部分:算法技术信息(16-30条)

这部分是技术人员的主场,但也是最容易踩坑的地方。

16. 算法类型是否选择正确。 是生成合成类?还是个性化推送类?还是多种类型都有?选错了整个材料方向就偏了。

17. 算法名称是否与实际使用的算法一致。 别写个花里胡哨的名字,结果代码里根本没有,审核人员一查就露馅。

18. 算法基本原理是否用通俗语言描述清楚。 记住,审核人员不是算法工程师,“基于Transformer的解码器架构”这种话他们听不懂。

19. 训练数据来源是否明确说明。 公开数据?授权数据?爬取数据?每一种都要说清楚。

20. 训练数据规模是否在材料中准确填报。 不是越多越好,是多少就说多少,造假被查出来代价很大。

21. 数据标注方式和标注人员资质是否说明。 人工标注还是自动标注?标注团队有没有专业培训?

22. 模型参数规模是否准确填报。 百亿参数还是千亿参数?必须和实际模型一致。

23. 是否使用了预训练模型。 如果用了,是自己训练的还是调用的第三方?第三方是谁,有没有合规授权?

24. 模型训练环境是否说明。 用了什么硬件,多少算力,训练了多久,这些都要写。

25. 模型评测指标和评测结果是否报告。 你说你的模型效果好,得有数据支撑,不能光靠嘴说。

26. 模型推理部署方式是否说明。 云端部署还是本地部署?API调用还是SDK集成?

27. 是否存在模型版本管理机制。 每次迭代都要更新备案,不能一个版本备案另一个版本上线。

28. 模型更新频率和更新流程是否说明。 大版本更新和小版本迭代,处理方式不一样,要分清楚。

29. 是否存在模型蒸馏或压缩。 如果有,蒸馏后的模型是否也需要备案?要看具体情况。

30. 是否有模型可解释性说明。 审核人员会问“你怎么知道模型会这样输出”,你得能回答。

第三部分:安全风险评估(31-45条)

这是整个备案的核心,也是审核人员最看重的部分。你要回答的问题只有一个:你的大模型会不会作恶?

31. 是否已完成算法安全自评估报告。 这份报告必须认真写,不是套模板能解决的。

32. 自评估报告是否由专业机构出具。 第三方评估机构出具的报告,公信力比你自说自话强得多。

33. 是否识别了算法可能带来的安全风险。 歧视、偏见、隐私泄露、虚假信息、恶意滥用……你能想到的风险都要列出来。

34. 每个风险点是否有对应的防控措施。 光说“有风险”不行,得说“我怎么管”。

35. 是否存在内容生成类风险的处理机制。 虚假信息、有害内容、侵权内容,你的模型生成这些怎么办?

36. 是否存在用户诱导模型越狱的风险预案。 提示词注入、越狱攻击,这些是真实存在的威胁。

37. 是否建立了模型输出审核机制。 用户问什么模型就答什么?还是会经过过滤和审查?

38. 是否存在未成年人保护机制。 如果你的产品面向未成年人,这块要求会更严格。

39. 是否存在算法成瘾性设计。 你的产品会不会让人沉迷?如果会,你怎么控制?

40. 是否存在价格歧视或消费诱导。 如果你的模型用于电商或金融场景,这个要特别说明。

41. 是否存在社会动员风险评估。 你的产品会不会被用来煽动舆论、组织非法活动?

42. 是否建立了应急响应机制。 发现问题怎么办?谁来管?多久处理?

43. 是否定期进行安全演练。 纸上谈兵不行,得真的模拟过紧急情况。

44. 是否保存了安全事件日志。 出了问题要有据可查,日志是关键证据。

45. 是否建立了安全事件上报机制。 发现问题主动上报和被动发现,性质完全不同。

第四部分:用户权益保护(46-60条)

这部分是很多企业的软肋。不是他们不想保护用户权益,是根本不知道用户有哪些权益需要保护。

46. 是否提供关闭个性化推荐的选项。 这是《互联网信息服务算法推荐管理规定》的明确要求,必须有。

47. 关闭推荐的入口是否明显可见。 别藏在三级菜单里,找都找不到等于没有。

48. 关闭推荐后功能是否正常。 不能说“我给你关了,但你也不能用了”,这叫强制绑定。

49. 用户是否可以查看自己的行为数据。 “我的数据是怎么被用的”,用户有权知道。

50. 用户是否可以删除自己的数据。 这个权利在《个人信息保护法》里写得清清楚楚。

51. 用户是否可以更正自己的数据。 数据错了能改,这是基本要求。

52. 是否提供账号注销功能。 用户要走就走,不能设置障碍。

53. 注销后数据保留期限是否明确告知。 法律规定最长6个月,不能无限期留着。

54. 是否建立用户投诉和申诉渠道。 用户受了委屈得有地方说理。

55. 投诉处理时限是否明确规定。 不能让用户投诉了石沉大海。

56. 是否定期分析投诉数据改进产品。 投诉是改进的机会,不是找麻烦。

57. 用户协议和隐私政策是否清晰易懂。 别写一堆法律术语把人看晕。

58. 是否明确告知用户算法使用的目的和范围。 用户得知道他的数据被用来干什么。

59. 是否获取了用户有效的知情同意。 弹窗点个“同意”不算数,得确保用户真的理解了。

60. 未成年用户是否有特殊保护机制。 实名认证、时长限制、消费限制,该有的都得有。

如果您想参与大模型补贴,首先就得组建一支专业的AI研发团队,从模型选型、数据清洗、微调训练到安全评估,不仅人力成本高,资金投入更是巨大,而且还时间紧任务重。

第五部分内容安全机制(61-75条)

大模型最让人担心的就是“一本正经胡说八道”。你得证明你的胡说八道有底线。

61. 是否建立内容过滤机制。 什么能说什么不能说,得有明确的规则和执行。

62. 是否建立敏感词库。 政治、色情、暴力、违法犯罪……这些领域的敏感词必须覆盖。

63. 敏感词库是否定期更新。 社会热点在变,敏感词也要与时俱进。

64. 是否建立内容审核团队或使用审核服务。 纯靠技术过滤不够,关键内容需要人工复审。

65. 审核团队是否经过专业培训。 不是随便拉个人就能审,得懂法规、懂标准。

66. 是否建立AIGC内容标识机制。 AI生成的内容要有明显标识,不能以假乱真。

67. 标识方式是否符合国家标准。 《互联网信息服务深度合成管理规定》对标识有明确要求。

68. 是否建立了虚假信息识别和处置机制。 模型说错了怎么办?得能发现、能纠正、能追责。

69. 是否存在版权侵权风险防控。 模型生成的内容可能涉及他人版权,你有措施吗?

70. 是否建立了侵权投诉处理机制。 有人说你侵权了,你得能快速响应。

71. 是否对模型输出进行抽样检测。 定期抽检,看模型有没有跑偏。

72. 是否建立了黑名单机制。 恶意用户、违规用户,要有措施限制。

73. 跨境内容是否有特别处理。 如果你的产品面向境外用户或者处理境外数据,需要额外注意。

74. 热点事件内容是否有特别审核。 重大事件期间,审核力度要加大。

75. 是否建立了内容安全事件复盘机制。 出事了要分析原因,避免再犯。

第六部分:数据安全保护(76-90条)

大模型的燃料是数据,数据安全不过关,其他一切都白搭。

76. 是否建立数据分类分级制度。 什么数据是敏感的,什么是一般的,得分清楚。

77. 敏感数据的存储方式是否合规。 加密存储、本地存储还是云存储,都有不同要求。

78. 数据传输是否加密。 传输过程中的数据安全,同样重要。

79. 用户个人信息的收集是否符合最小必要原则。 不能收集无关的信息。

80. 是否存在数据共享或第三方调用。 如果有,数据接收方合规吗?有协议吗?

81. 数据跨境传输是否符合规定。 涉及境外的,要过安全评估。

82. 是否建立了数据安全管理制度。 制度要落在纸面上,不能只是口头说说。

83. 数据安全责任人是否明确。 出了问题找谁,要有明确的人负责。

84. 是否定期进行数据安全培训。 员工的安全意识,是最后一道防线。

85. 是否建立数据泄露应急响应机制。 泄露了怎么办?第一时间做什么?

86. 是否保存数据安全日志。 日志要留存足够长的时间,以备检查。

87. 是否进行过数据安全评估。 定期评估,发现问题及时整改。

88. 废弃数据的销毁方式是否合规。 删除不等于销毁,得彻底。

89. 训练数据的版权是否清晰。 用了有版权的数据,得有授权证明。

90. 是否存在数据垄断风险。 监管部门也在关注数据竞争问题。

第七部分:流程机制与持续运营(91-100条)

备案不是一锤子买卖,备案后的持续合规才是真正的考验。

91. 是否建立了备案变更机制。 算法更新了、公司变更了,要及时更新备案信息。

92. 是否建立了定期自查机制。 备案通过不代表永远合规,要定期检查。

93. 是否建立了监管沟通渠道。 和监管部门保持联系,有问题及时沟通。

94. 是否关注最新的监管政策动态。 法规在更新,你的合规也要更新。

95. 是否建立了员工合规培训机制。 新人要培训,老人也要复习。

96. 是否建立了内部合规考核机制。 合规不能只靠自觉,要有考核有奖惩。

97. 备案号是否在产品显著位置公示。 这是法定义务,不公示等于没备案。

98. 备案信息变更是否在规定时间内完成。 重大变更10个工作日内要更新。

99. 是否建立了备案档案管理制度。 所有材料要有归档,保存足够长的时间。

100. 是否准备好了迎接现场检查。

这100条,不要求条条完美,只是让你知道自己在做什么、有什么风险、怎么控制风险。

如果还是不知道该怎么办,那欢迎进行专业咨询

标签: none

添加新评论