近日看到了Google的BigQuery技术,用类似SQL的语言来做一些数据的分析。而Github也加入了进来。闲来无事,就去体验了一把。 这是 相关文章 的地址。
整体的语法都和SQL非常接近,鉴于点进来的人很多都是冲着“有趣”这两个字来的,就不过多介绍代码了。这段代码的作用是找到github仓库中,使用Python语言的仓库中,前10个被引用的库。
SELECT package, COUNT(*) count FROM ( SELECT REGEXP_EXTRACT(line, r' ([a-z0-9/._]*)/.') package, id FROM ( SELECT SPLIT(content, '/n') line, id FROM [bigquery-public-data:github_repos.sample_contents] WHERE content CONTAINS 'import' AND sample_path LIKE '%.py' HAVING LEFT(line, 6)='import' ) GROUP BY package, id ) GROUP BY 1 ORDER BY count DESC LIMIT 40;
BigQuery的界面也非常有Google风……
这是通过刚刚的分析做出来的前几名的Python库的列表。
例如大家都在用什么协议来发布作品,有接近150万个仓库使用MIT协议来发布。
关注tensorflow的人都在关注什么?
最受欢迎的语言
提交次数和时间的关系