标签：数据集

account_circle 林清杨 schedule2025年7月1日folder_open2025, AI

报告摘要小红书（Xiaohongshu）已崛起为当代数字生态中一个极具价值的数据金矿，其独特的用户生成内容（UGC）为训练下一代人工智能（AI）和大型语言模型（LLM）提供了前所未有的机遇。本报告旨…

account_circle 林清杨 schedule2024年10月17日folder_open数据集

在制作代码数据集时，常用的代码处理涉及以下多个方面，具体操作取决于你需要的数据集类型和目标。以下是常用的代码处理操作类别： 1. 代码清理与预处理去除注释：移除代码中的单行、多行注释，减少干扰内容。…

github：https://github.com/mira-space/MiraData 知乎-OpenDataLab-可以用于文生视频大模型训练的数据集？ ## MiraData: A Large…

数据集名称：mozilla-foundation/common_voice_11_0 数据集地址：https://huggingface.co/datasets/mozilla-foundation/…