开源代码数据集

内容纲要

The Stack(6TB)

下载链接:https://huggingface.co/datasets/bigcode/the-stack

The Stack数据集,这是一个具有3.1TB的合法开源代码语料,拥有30种编程语言(注:最新版The Stack v1.1已经拓展到了308种语言,6TB数据);

CodeParrot github-code(500GB)

下载链接:https://huggingface.co/datasets/codeparrot/github-code

PolyCoder(249GB)

下载链接:https://github.com/VHellendoorn/Code-LMs

用的是GitHub上的公开代码,主要选取的是各种编程语言中比较受欢迎的库,每个库至少有50 Stars,采用了多种编程语言代码集来训练,一共有12种

Google BigQuery(2B文件)

下载链接:https://cloud.google.com/blog/topics/public-datasets/github-on-bigquery-analyze-all-the-open-source-code

Google BigQuery提供了GitHub上许可存储库的快照,可以通过SQL查询进行过滤。AlphaCode,BLOOM,InCoder、CodeGen)都在他们的预训练数据集中包括了这部分数据。

CodeSearchNet(20GB)

下载链接:https://github.com/github/CodeSearchNet

其中包含了约600万种函数,取自Go,Java,JavaScript,PHP,Python和Ruby这六种编程语言的开源代码。

ProjectCodeNet(5亿行)

下载链接:https://github.com/IBM/Project_CodeNet

该数据集包含 1400 万个代码样本,共有用 55 种编程语言编写的 5 亿行代码,其中 C++ 是样本中使用最多的语言,Python 位居第二。

CodeXGLUE

下载链接:GitHub - microsoft/CodeXGLUE: CodeXGLUE

microsoft 开源的,包含10个任务及14个数据集

比较大的几个数据集对比图

数据来源

Leave a Comment

您的电子邮箱地址不会被公开。 必填项已用*标注

close
arrow_upward