AutoDev Coder 6.7B 代码微调模型（v1 试验版）

AI 7个月前 admin

26 0 0

太长不读性：

适用于 AutoDev 的编码大模型 AutoDev Coder 6.7B 第一个勉强可用的版本出来的。

HuggingFace 首页：https://huggingface.co/unit-mesh （暂时没有资质提供模型，🐶🐶）。
数据集下载地址：https://huggingface.co/datasets/unit-mesh/autodev-datasets

PS：AutoDev 1.5.1 的指令经过一些细微的调整，所以模型在 1.5.1 上的体验会比 1.5.0 略微好一点。而由于 AutoDev 1.5.1 在 JetBrains 市场等待审批，而老外们正在休完假。

除此，在有了更好的算力支持，经过更好的补全测试之后，我们也会将原来的 Inlay 补全模式加回来。

AutoDev Coder 6.7B v1 试验版

当前版本基于 LLaMA 架构下的 DeepSeek Coder 6.7b instruct 模型微调的。

注意事项：作为试验版，主要是为了磨合模型、数据工具与 IDE 插件，以达成更好的协调。因此，在生成质量还需要进一步提高，blabla 。

AutoDev Coder 64k 数据集

如下是 AutoDev Coder v1 64k 的指令组成：

文件名	选取的指令数
java_oss.jsonl	4000
python_oss.jsonl	4000
codebugfixcleaned_5K.json	4000
codeGPTCNcleaned_20K.json	15000
codesummarizationCNcleaned10K.json	8000
codegenerationCNcleaned5K.json	4000
summary.jsonl	25000

其中的 summary.jsonl 是由我们开源的代码微调数据框架 UnitGen 生成（https://github.com/unit-mesh/unit-gen）。

我们挑选了几十个开源软件 Java 和 Kotlin 语言，根据 AutoDev 插件的指令生成，主要分为三类：

补全（行内、行间、块间）
文档生成
注释生成

详细说明可以见 UnitGen （由 UnitEval 拆分出来）项目和文档：https://github.com/unit-mesh/unit-gen。

UnitGen 架构如下：

AutoDev Coder 6.7B 代码微调模型（v1 试验版）

基于真国产、真自研的 Chapi 语法分析工具提供底层支持。

FAQ：AutoDev Coder 模型评估

暂时还在设计中。由于我们需要结合 AutoDev 指令与不同的语言如 Java、 Kotlin 、TypeScript 等语言，而非各种开源模型中喜欢用的 Python 体系，所以需要重新思考怎么设计。

我们前期采用 OSS Instruct 等指令集作为自然语言生成代码的补充，后来发现有一半的指令（～50，000 ）与 Python 相关，后来从中刷选出 Java 大概在 ~5，000 左右。在 AutoDev 中采用结果并不是很好。

FAQ：AutoDev 指令

AutoDev 采用的是相关上下文策略，所以在指令上与其它工具有所差异。详细见：https://github.com/unit-mesh/auto-dev

Demo 示例

其它

有问题请在 GitHub 上讨论，微调公众号不好用～，见谅。

原文始发于微信公众号（phodal）：AutoDev Coder 6.7B 代码微调模型（v1 试验版）

版权声明：admin 发表于 2024年1月2日下午6:02。
转载请注明：AutoDev Coder 6.7B 代码微调模型（v1 试验版） | CTF导航

[论文工具] LaTeX常见错误及解决方法汇总笔记（eps2pdf失败 | 特殊符号 | 参考文献未显示或越界）

admin

128

STI比赛任务二：【答案检验基线方案以及思路分享】

admin

375

RAG实践｜Rerank如何提升LLM查询效率与准确性

admin

AI在“攻”的一些探索

admin

加州大学河滨分校 | 利用ChatGPT辅助静态分析

admin

[ACM MM 2022] DiT: 基于Transformer的文档图像自监督预训练方法

admin

581

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

AutoDev Coder 6.7B 代码微调模型（v1 试验版）

AutoDev Coder 6.7B v1 试验版

AutoDev Coder 64k 数据集

FAQ：AutoDev Coder 模型评估

FAQ：AutoDev 指令

Demo 示例

其它

检测成熟度级别 (DML) 模型

LLM强化防线：大模型敏感信息的泄露检测和风险评估

相关文章

暂无评论

相关文章

AutoDev Coder 6.7B 代码微调模型（v1 试验版）

AutoDev Coder 6.7B v1 试验版

AutoDev Coder 64k 数据集

FAQ：AutoDev Coder 模型评估

FAQ：AutoDev 指令

Demo 示例

其它

检测成熟度级别 (DML) 模型

LLM强化防线：大模型敏感信息的泄露检测和风险评估

相关文章

暂无评论

广告位

相关文章