最新动态显示,哈佛大学与谷歌携手宣布,将共同推出一个包含100万册公共领域图书的数据集,用于人工智能(AI)的训练。
在AI训练领域,获取高质量数据的成本一直居高不下,这对于资金雄厚的科技巨头来说或许不成问题。哈佛大学此次推出的数据集,涵盖了广泛的类型、语言和作者,包括诸如狄更斯、但丁和莎士比亚等经典作家的作品,这些作品因版权过期而进入公共领域。
尽管这一数据集的具体发布细节和时间表尚未对外公布,但其背后依托的是谷歌的长期项目——谷歌图书(Google Books),谷歌将参与这一“知识宝库”的广泛发布。
据悉,哈佛大学在今年3月就已对外透露了其“机构数据计划(Institute Data Initiative,简称IDI)”,并强调该计划的目的是为AI提供“合法且可靠的数据来源”。随着计划的正式启动,微软和OpenAI也确认了对该计划的资金支持。
IDI的执行董事格雷格·莱佩特(Greg Leppert)指出,该数据集的发布旨在“促进市场竞争的公平性”,通过向包括研究机构和AI领域的初创企业在内的各类组织开放这一庞大的数据集,助力他们训练先进的语言模型。