分类：数据集

account_circle 林清杨 schedule2025年5月17日folder_open2025, AI, 数据集

本文档旨在提供在自然语言处理（尤其是大型语言模型，LLM）场景下准备三类数据集（知识库数据集、微调数据集、预训练数据集）的规范指导。主要内容涵盖各类数据集的定义与适用场景、数据格式要求、数据构成比例建…

account_circle 林清杨 schedule2025年5月8日folder_open2025, AI, 数据集

标签：数据蒸馏, 数据压缩, 数据增强, 小样本学习, 元学习, 机器学习优化, 模型训练加速, 数据子集选择, 隐私计算, AI数据优化 📍前情回顾：数据蒸馏是什么？简而言之：数据蒸馏（Datas…

account_circle 林清杨 schedule2025年2月19日folder_open数据集

有监督数据与指令数据是机器学习中两种不同类型的数据形式，其核心区别体现在数据结构和应用场景上：一、定义与数据结构有监督数据 (Supervised Data) 有监督数据由输入特征（feature…

account_circle 林清杨 schedule2024年10月17日folder_open数据集

在制作代码数据集时，常用的代码处理涉及以下多个方面，具体操作取决于你需要的数据集类型和目标。以下是常用的代码处理操作类别： 1. 代码清理与预处理去除注释：移除代码中的单行、多行注释，减少干扰内容。…

The Stack（6TB）下载链接：https://huggingface.co/datasets/bigcode/the-stack The Stack数据集，这是一个具有3.1TB的合法开源代…

引言数据增强（Data Augmentation, DA）是一种广泛使用的技术。尤其在低资源条件下，数据增强增加了训练数据的规模，这样不仅可以防止模型过拟合，还能够提高深度神经网络的鲁棒性。最初，数…

account_circle 林清杨 schedule2024年8月6日folder_openAI, 数据集

在构建自然语言处理（NLP）应用时，处理停用词是一个关键步骤，无论是在传统NLP场景还是在大规模模型的数据集制作中。这篇文章将详细介绍停用词的概念、重要性、如何选择停用词列表，以及在不同场景下的应用策…

github：https://github.com/mira-space/MiraData 知乎-OpenDataLab-可以用于文生视频大模型训练的数据集？ ## MiraData: A Large…