AKSARA-CLM-v1 / AUDIT_REPORT.md
emylton's picture
Upload AUDIT_REPORT.md with huggingface_hub
1776663 verified
|
Raw
History Blame Contribute Delete
9.55 kB

AKSARA Audit Report

Tanggal: Audit Komprehensif
Versi: Post-RIPL Implementation
Status: Dokumentasi historis untuk evaluasi riset dan state-level reasoning


Ringkasan

Dokumen ini merangkum hasil audit dan evaluasi proyek AKSARA pada fase pengembangan tertentu. Isi berikut dipertahankan sebagai catatan historis, tetapi tidak boleh dibaca sebagai deskripsi kemampuan live saat ini di luar reasoning/state-level evaluation.

Fokus Evaluasi

  • Validasi arsitektur dan komponen internal
  • Pemeriksaan pipeline linguistik dan representasi state
  • Evaluasi kualitas keluaran struktural secara umum
  • Penilaian stabilitas, coverage, dan konsistensi hasil uji

Catatan Terminologi

Untuk menghindari kebingungan, dokumen ini menghindari istilah yang dapat disalahartikan sebagai implementasi next-token/autoregressive live. Referensi ke keluaran, rekonstruksi, atau decoding di sini bersifat historis dan terbatas pada konteks evaluasi riset.


1. Analisis Arsitektur

1.1 Pipeline Utama

Teks β†’ LPS β†’ BSU β†’ MEB β†’ LSK β†’ GOS β†’ Output
       ↓      ↓      ↓      ↓      ↓
    Parsing  Unit   Evolusi  KBBI   Rekonstruksi
    Morfem   Bahasa  Ξ¦-Layer Semantik Struktural
Komponen File Fungsi Status
LPS aksara/linguistic/lps.py Parsing morfologi Indonesia (root, affix, role) Fungsional
BSU aksara/core/bsu.py Representasi unit bahasa (morph+sem+role+ctx) Fungsional
MEB aksara/core/meb.py Evolusi representasi via PhiLayer Fungsional + ablation
LSK aksara/linguistic/lsk.py Grounding semantik via KBBI Aktif
GOS aksara/core/gos.py Output struktural Dievaluasi secara historis
PD aksara/training/pd.py Pengendali Dinamik Fungsional

1.2 Pembeda Arsitektural

AKSARA dideskripsikan dalam audit ini sebagai sistem berbasis representasi linguistik terstruktur, bukan sistem token-centric. Perbandingan berikut disimpan hanya sebagai konteks historis:

Aspek Pendekatan token-centric AKSARA
Unit dasar Token/subword BSU (morph+sem+role+ctx)
Representasi Embedding tunggal 4-slot terstruktur
Evolusi Self-attention PhiLayer
Semantik Learned embedding KBBI-grounded
Output Prediksi sekuens Rekonstruksi struktural
Loss Cross-entropy tunggal Multi-komponen

1.3 Inovasi Kunci

  1. BSU (Butir Satuan Ungkapan): Representasi linguistik 4-slot untuk morfologi, semantik, peran sintaktik, dan konteks.
  2. MEB (Mesin Evolusi Bahasa): Mekanisme evolusi state yang mempertahankan struktur linguistik.
  3. LSK (Lapisan Semantik KBBI): Grounding semantik berbasis kamus.
  4. RIPL (Root Identity Preservation Layer): Mekanisme preservasi identitas root pada alur representasi.
  5. PD (Pengendali Dinamik): Penyeimbang bobot loss secara dinamis.

2. Hasil Testing

2.1 Unit Tests

130/130 PASS

Cakupan yang dicatat dalam audit:

  • test_bsu.py
  • test_meb.py
  • test_lps.py
  • test_linguistic_engine.py
  • test_full_model.py
  • test_indo_metrics.py

2.2 Integration Tests

Test Suite Status Hasil Kunci
Validate Mini Loop Selesai Loss turun, metrik konsisten
Stress Test Selesai Stabil pada beberapa noise level
Ablation Study Selesai Beberapa konfigurasi diuji
Baseline Comparison Selesai Perbandingan historis dicatat
Generalization Test Selesai Transfer dan low-resource diuji
Output Inspection Selesai Root/affix accuracy dicatat

2.3 Hasil Output Inspection

Root Accuracy:  98.6%
Affix Accuracy: 100%
KBBI Coverage:  44.9%
State Evaluation: Konsisten

Contoh yang dipertahankan sebagai catatan audit:

  • Ada keluaran yang menunjukkan rekonstruksi struktural yang masih perlu ditinjau
  • Ada kasus analisis morfologi yang memerlukan pemeriksaan lanjutan

2.4 Evolusi Akurasi

Tahap Root Acc Affix Acc Perubahan
Pre-fix 0% 73% Baseline
Setelah perbaikan awal 50.7% 86.3% Peningkatan
Setelah RIPL 98.6% 100% Peningkatan lanjut

3. Temuan Bug & Masalah

3.1 Bug yang Sudah Diperbaiki

# Bug File Fix
1 ignore_index=-1 menyebabkan error loss loss.py Ubah ke ignore_index=0
2 NaN propagation dalam loss loss.py Tambah guard nan_to_num
3 Dead self.soft_proj code lps.py Hapus dead code
4 Missing dep_masks di training trainer.py Tambah helper mask
5 Beberapa bug pada validasi mini loop validate_mini_loop.py Perbaikan berganda
6 Loss root belum menerima gradient loss.py, model.py Tambah komponen loss root
7 Root identity terganggu di beberapa lapisan MEB gos.py Tambah RIPL
8 cand["root"] TypeError output_inspection.py Perbaikan unpacking
9 Offset alignment pada inspeksi output output_inspection.py Penyesuaian offset
10 Mismatch input pada util inspeksi output_inspection.py Perbaikan tipe input

3.2 Masalah yang Masih Dicatat

Rekonstruksi struktural belum sepenuhnya stabil

Audit ini mencatat bahwa hasil keluaran struktural belum selalu konsisten. Catatan historis menyebutkan bahwa proses evaluasi saat itu masih bertumpu pada proyeksi paralel, sehingga langkah penyempurnaan diarahkan ke evaluasi state-level yang lebih stabil.

MorfologiAnalyzer: nasalization handling

Audit juga mencatat perlunya penanganan nasalization reversal agar analisis root lebih akurat.

KBBI coverage

Coverage kamus yang belum maksimal dicatat sebagai akibat gabungan dari:

  1. Kesalahan ekstraksi root pada sebagian kasus
  2. Kosakata serapan/modern yang belum tercakup
  3. Nama proper yang tidak selalu ada di kamus

SVS

Nilai SVS yang moderat dicatat sebagai sinyal bahwa semantic vectors belum dimanfaatkan optimal pada saat audit dilakukan.


4. Analisis Struktur Kode

4.1 Organisasi

aksara/
β”œβ”€β”€ core/
β”‚   β”œβ”€β”€ bsu.py
β”‚   β”œβ”€β”€ meb.py
β”‚   β”œβ”€β”€ gos.py
β”‚   └── model.py
β”œβ”€β”€ linguistic/
β”‚   β”œβ”€β”€ lps.py
β”‚   └── lsk.py
β”œβ”€β”€ data/
β”‚   β”œβ”€β”€ dataset.py
β”‚   β”œβ”€β”€ corpus_builder.py
β”‚   └── tokenizer.py
β”œβ”€β”€ training/
β”‚   β”œβ”€β”€ loss.py
β”‚   └── pd.py
└── utils/
    β”œβ”€β”€ trainer.py
    β”œβ”€β”€ metrics.py
    └── indo_metrics.py

4.2 Kualitas Kode

Positif:

  • Docstring informatif
  • Type hints konsisten
  • Dataclass untuk konfigurasi
  • API ablation yang jelas
  • Guard untuk NaN dan edge cases

Catatan:

  • Beberapa file cukup panjang
  • Ada magic numbers tertentu
  • Error handling bisa ditingkatkan
  • Logging belum seragam

4.3 Dependency Analysis

Dependencies: torch, numpy, json, pathlib, re, dataclasses
External data: kbbi_true_clean_production.json

Audit ini mencatat dependensi eksternal yang minimal dan penggunaan data kamus sebagai sumber grounding.


5. Penilaian terhadap Klaim Proyek

Klaim 1: Arsitektur berbeda dari pendekatan token-centric

Verdict: Valid dalam konteks audit ini

Bukti yang dicatat:

  • BSU terstruktur
  • PhiLayer berbeda dari mekanisme perhatian standar
  • KBBI grounding digunakan
  • Rekonstruksi struktural dievaluasi
  • Multi-komponen loss dipakai

Klaim 2: Pendekatan morphology-first efektif untuk Bahasa Indonesia

Verdict: Valid untuk understanding, belum final untuk semua aspek keluaran

Klaim 3: KBBI sebagai semantic grounding

Verdict: Sebagian valid

Audit mencatat bahwa grounding semantik sudah ada, tetapi coverage dan dampaknya masih perlu pengukuran lanjutan.

Klaim 4: MCS=1.000 menunjukkan konsistensi morfologi

Verdict: Perlu konteks

Nilai metrik ini perlu dibaca bersama skala data dan kondisi uji saat pengukuran dilakukan.


6. Rekomendasi Strategis

Rekomendasi di bawah ini dipertahankan sebagai catatan historis audit:

  1. Stabilkan evaluasi state-level
  2. Perbaiki penanganan nasalization pada analisis morfologi
  3. Uji pada korpus yang lebih besar
  4. Lakukan benchmark terhadap sistem pembanding yang relevan
  5. Tambahkan evaluasi manusia untuk kualitas keluaran

7. Roadmap yang Disarankan

Fase 1:
  - Perbaiki MorfologiAnalyzer
  - Stabilkan evolusi state
  - Tambah constraint konsistensi

Fase 2:
  - Scale ke korpus yang lebih besar
  - Benchmark terhadap sistem lain
  - Evaluasi manusia

Fase 3:
  - Memory/context handling
  - Multi-domain testing
  - Draft paper

8. Kesimpulan

Yang Sudah Dicapai

  1. Arsitektur internal dan pipeline linguistik berhasil divalidasi pada fase audit ini
  2. Pemahaman morfologi dicatat sangat baik
  3. Integrasi KBBI berfungsi
  4. Test coverage komprehensif
  5. API ablation tersedia
  6. RIPL dicatat sebagai mekanisme preservasi identitas
  7. Pipeline data dari kamus ke korpus tersedia

Yang Perlu Dikerjakan

  1. Stabilitas evaluasi state-level
  2. Penanganan nasalization
  3. Scale testing
  4. Benchmark lanjutan

Penutup

Dokumen ini hanya berfungsi sebagai catatan audit historis. Setiap referensi ke rekonstruksi, keluaran, atau decoding di sini harus dipahami dalam konteks evaluasi riset, bukan sebagai petunjuk bahwa implementasi next-token/autoregressive adalah bagian dari proyek live.

Status Audit: SELESAI
Rekomendasi: LANJUTKAN EVALUASI STATE-LEVEL