V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bigtang
V2EX  ›  Kotlin

kotlin 源代码数据集

  •  
  •   bigtang · 2023-06-23 08:44:44 +08:00 · 2064 次点击
    这是一个创建于 548 天前的主题,其中的信息可能已经有所发展或是发生改变。
    很多公司不愿意从 java 转向 kotlin ,原因是你能想到的几乎所有编程问题,bug ,一搜索都会有一堆 java 案例,而 kotlin ,那则少的可怜,因为 kotlin 毕竟是一门新生语言,虽然 java 可以转为 kotlin ,但对 kotlin 新手还是不友好,转换经常会产生一些编译错误,新手一筹莫展。

    如果有大量的 kotlin 源代码可参考,这个问题会大有改观。

    BigCode 数据集是一个开放的科学合作项目,旨在负责任地训练大语言模型,以应用于编码领域。该数据集包含了来自 Stack Exchange 平台上的问题和答案,包括 StackOverflow 的编程话题下的问题和答案。BigCode 数据集可以用于许多自然语言处理任务,如代码补全、代码摘要、代码搜索等。此外,BigCode 数据集还可以用于研究代码的语义和结构,以及代码的演化和变化。BigCode 项目中包含了 StarCoder 、The Stack 和 SantaCoder 等工件,其中 StarCoder 是用于编码的最先进的语言模型,The Stack 是可用的最大的预训练数据集,包含宽容的代码,而 SantaCoder 是一个参数达到 1.1B 的编码模型。

    BigCode 中就有大量的 kotlin 源码,数量是 13G, 375 万个 kt 文件.
    下载方法: https://huggingface.co/datasets/bigcode/the-stack/tree/main/data
    打开后,点击底部的 Load more files, 直到看见 kotlin, 点击 kotlin
    就会看到有 15 个 parquet 文件下载
    可以用 Python 对 parquet 文件解压:

    import pyarrow.parquet as pq
    table = pq.read_table('input.parquet')
    table.to_pandas().to_csv('output.csv')

    这样你就可以在本地检索 kotlin 源代码了,
    在线搜索:源代码搜索网站 www.tanglib.com 提供了本 kotlin 源代码数据集在线全文检索。
    2 条回复    2023-06-23 16:09:52 +08:00
    TWorldIsNButThis
        1
    TWorldIsNButThis  
       2023-06-23 14:34:19 +08:00
    kotlin 编译错误?很少吧,也就是一开始不熟练 class constructor + property 的几个简写比较容易犯错,其他的按提示写就行了,又不是 typescript ,类型系统玩不出花
    houshuu
        2
    houshuu  
       2023-06-23 16:09:52 +08:00 via iPhone
    倒也没这么困难
    java 复制进 intellij 直接就转成 kotlin 了
    除非用 ktor 什么的,其他基本看 java 资料也是一样的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   914 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 19:49 · PVG 03:49 · LAX 11:49 · JFK 14:49
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.