分类: AI
有监督数据和指令数据
有监督数据与指令数据是机器学习中两种不同类型的数据形式,其核心区别体现在数据结构和应用场景上: 一、定义与数据结构 有监督数据 (Supervised Data) 有监督数据由输入特征(feature…
腾讯 CloudStudio可以部署deepseek了
地址:https://ide.cloud.tencent.com/dashboard/workspace
deepseek-强化学习(RL)中的奖励设计
deepseek冷启动数据
AI数据集开发平台中,数据回流是什么,都有哪些回流,如何做数据回流
在AI数据集开发平台中,数据回流(Data Backflow)是指将模型在实际应用过程中生成的各种数据、反馈或结果重新收集、处理并反馈到数据集或模型训练流程中,以优化和提升模型的性能、准确性及适应性。…
大型语言模型的分词器解析:从原理到实践
大型语言模型(LLM)所使用的 tokenizer 主要差异来自于子词切分算法(BPE、WordPiece、SentencePiece 等)、多语言支持程度、词表规模及 OOV(未登录词)处理方式。选…
《Building effective agents》-建立高效的 Agent
前言 2024 年 12 月 20 日 文章来源:Building effective agents 过去的一年里,我们与来自各行各业、构建大型语言模型(LLM)Agent 的数十个团队进行了合作。我…
读了26篇论文,终于真正搞懂了AI Agent
Docker Compose 部署运行 Dify
一、安装docker 安装 Dify 之前, 请确保你的机器已满足最低安装要求: CPU >= 2 Core RAM >= 4 GiB 操作系统 软件 描述 macOS 10.14 or …
怎么建立估计10万+软文点击率的模型?
上一篇,我们通过一个项目讲解了“实战 5 步”的前两步。在第一步“定义问题”中,我们定义了要处理的问题,也就是根据点赞数和转发数等指标,估计一篇文章能实现多大的浏览量。同时我们还将它归类为回归问题;在…
怎么定义问题和预处理数据?
机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分析和解决问题的技术。现在,你是不是跃跃欲试,准备动手开跑机器学习程序了? 不要着急,在实战之前你还需要掌握最后一个知识点,也就是机器学习…
什么是机器学习
什么是机器学习 这个问题其实不好回答,因为机器学习涵盖的内容太多了。 机器学习之父 Arthur Samuel 对机器学习的定义是:在没有明确设置的情况下,使计算机具有学习能力的研究领域。 国际机器学…
特征工程全面指南:从基础到进阶
特征工程全面指南:从基础到进阶 引言 特征工程是数据科学和机器学习中至关重要的一步,它涉及将原始数据转换为可以有效训练模型的特征。本文将系统性地探讨特征工程的各个方面,包括数据预处理、特征构建、特征选…
要制作代码数据集,常用的代码处理都有哪些
在制作代码数据集时,常用的代码处理涉及以下多个方面,具体操作取决于你需要的数据集类型和目标。以下是常用的代码处理操作类别: 1. 代码清理与预处理 去除注释:移除代码中的单行、多行注释,减少干扰内容。…
开源代码数据集
The Stack(6TB) 下载链接:https://huggingface.co/datasets/bigcode/the-stack The Stack数据集,这是一个具有3.1TB的合法开源代…
深入浅出:LLM大语言模型的数据增强方法全解析
引言 数据增强(Data Augmentation, DA)是一种广泛使用的技术。尤其在低资源条件下,数据增强增加了训练数据的规模,这样不仅可以防止模型过拟合,还能够提高深度神经网络的鲁棒性。最初,数…
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
原文:https://cloud.tencent.com/developer/article/2413799?cps_key=1d358d18a7a17b4a6df8d67a62fd3d3d
中国人工智能成熟度模型报告
01|⼈工智能技术发展历程 02|中国人⼯智能技术成熟度模型 03|中国⼈工智能技术⼚厂商⽣生态图谱
ChatGPT的原理是什么
如果被问到 ChatGPT 的原理,可以从以下几个方面进行回答: 基本概念: ChatGPT 是一个基于 Transformer 架构的大规模语言模型,具体来说,它是由 OpenAI 基于 GPT(G…