webbigdata
/

nanochat-jp_base

Model card Files Files and versions

dahara1 commited on Oct 17, 2025

Commit

8f01f89

·

verified ·

1 Parent(s): 740d1ba

Update README.md

Files changed (1) hide show

README.md +2 -2

README.md CHANGED Viewed

@@ -8,14 +8,14 @@ language:
 karpathyさん(元スタンフォード、元テスラ、元OpenAI)の教育目的PJである[nanochat](https://github.com/karpathy/nanochat) のd20版を日本語データ [kajuma/ABEJA-CC-JA-edu 10%](https://huggingface.co/datasets/kajuma/ABEJA-CC-JA-edu) を使って事前学習させたモデルです。
-事前学習のみのため、補完しかできませんが、日本語が問題なく補完できることは確認済です。
 このリポジトリに格納されているモデルをホームディレクトリ(~/.cache/nanochat/)に
 - base_checkpoints_jp
 - tokenizer
-として配置する事で、続きとしてmid train(中間学習), SFT(教師あり微調整), RL(強化学習)を実行する事ができると思います。
 中間学習, 教師あり微調整, 強化学習は比較的少ないデータで実行可能なのでノード数とバッチサイズを減らせばH100 x 8台をレンタルせずともローカルPCなどで試行錯誤が実行可能です。

 karpathyさん(元スタンフォード、元テスラ、元OpenAI)の教育目的PJである[nanochat](https://github.com/karpathy/nanochat) のd20版を日本語データ [kajuma/ABEJA-CC-JA-edu 10%](https://huggingface.co/datasets/kajuma/ABEJA-CC-JA-edu) を使って事前学習させたモデルです。
+事前学習のみのため、入力された文章の続きを書く事(補完)しかできませんが、日本語が問題なく補完できることは確認済です。
 このリポジトリに格納されているモデルをホームディレクトリ(~/.cache/nanochat/)に
 - base_checkpoints_jp
 - tokenizer
+として配置する事で、学習の続きとしてmid train(中間学習), SFT(教師あり微調整), RL(強化学習)を実行する事ができると思います。
 中間学習, 教師あり微調整, 強化学習は比較的少ないデータで実行可能なのでノード数とバッチサイズを減らせばH100 x 8台をレンタルせずともローカルPCなどで試行錯誤が実行可能です。