The Stack(6TB)
下载链接:https://huggingface.co/datasets/bigcode/the-stack
The Stack数据集,这是一个具有3.1TB的合法开源代码语料,拥有30种编程语言(注:最新版The Stack v1.1已经拓展到了308种语言,6TB数据);
CodeParrot github-code(500GB)
下载链接:https://huggingface.co/datasets/codeparrot/github-code
PolyCoder(249GB)
下载链接:https://github.com/VHellendoorn/Code-LMs
用的是GitHub上的公开代码,主要选取的是各种编程语言中比较受欢迎的库,每个库至少有50 Stars,采用了多种编程语言代码集来训练,一共有12种
Google BigQuery(2B文件)
Google BigQuery提供了GitHub上许可存储库的快照,可以通过SQL查询进行过滤。AlphaCode,BLOOM,InCoder、CodeGen)都在他们的预训练数据集中包括了这部分数据。
CodeSearchNet(20GB)
下载链接:https://github.com/github/CodeSearchNet
其中包含了约600万种函数,取自Go,Java,JavaScript,PHP,Python和Ruby这六种编程语言的开源代码。
ProjectCodeNet(5亿行)
下载链接:https://github.com/IBM/Project_CodeNet
该数据集包含 1400 万个代码样本,共有用 55 种编程语言编写的 5 亿行代码,其中 C++ 是样本中使用最多的语言,Python 位居第二。
CodeXGLUE
下载链接:GitHub - microsoft/CodeXGLUE: CodeXGLUE
microsoft 开源的,包含10个任务及14个数据集