软件巨头 Adobe 近日面临拟议的集体诉讼,俄勒冈州作者伊丽莎白・里昂代表受影响群体起诉,称 Adobe 在开发 SlimLM 轻量级语言模型时使用了含其作品的盗版书籍数据集。SlimLM 在开源数据集 SlimPajama-627B 上预训练,该数据集被指包含约 19.1 万本未经授权电子书的 Books3 子集。此前,Apple 等公司也因使用含 Books3 内容的数据集陷入法律纠纷,SlimLM 主要用于移动设备文档辅助任务优化,Adobe 未作正式评论,训练数据合规性法律博弈成行业关键转折点。