天天看点

#DataLearner大模型技术分享#从代码数据看,Google未来的大模型能力值得期待!BigCode从GitHub

作者:数据学习DataLearner

#DataLearner大模型技术分享# 从代码数据看,Google未来的大模型能力值得期待!BigCode从GitHub上爬取的可用代码数据有92TB,但是很多不公开或者被删除的,占比40%,所以GitHub总的数据可能在150TB左右。而Google2016年论文中统计了,截至2015年,Google内部的代码数据已经有86TB!这些代码的评价质量可能是高于GitHub上的。

根据最近一系列的研究,基于普通的文本数据和代码数据一同训练大模型可以有效提高大模型的逻辑能力和推理能力。在编程支持上也会更好!Google最近更新的Bard对编程的支持也能说明PaLM2在代码能力上进步很快。不过,昨天公布的PaLM2的技术文档中PaLM2的代码能力似乎和GPT-4还有差距,这也是一个奇怪的点~

#DataLearner大模型技术分享#从代码数据看,Google未来的大模型能力值得期待!BigCode从GitHub
#DataLearner大模型技术分享#从代码数据看,Google未来的大模型能力值得期待!BigCode从GitHub
#DataLearner大模型技术分享#从代码数据看,Google未来的大模型能力值得期待!BigCode从GitHub

继续阅读