SentenceTransformer based on Omartificial-Intelligence-Space/Arabic-Triplet-Matryoshka-V2

This is a sentence-transformers model finetuned from Omartificial-Intelligence-Space/Arabic-Triplet-Matryoshka-V2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Monad-dz/dz-legal-ar-embeddings-v1")
# Run inference
sentences = [
    'الغرفة المدنية: ـ حيث تبين من ملف الطعن و القرار المطعون فيه  أن قضاة المجلس أسسوا قضاءهم الرامي إلى قبول دعوى المطعون ضدهما و الاستجابة إلى طلبهما على أحكام المادتين 757 و 758 ق إ م إ  التي تلزم الراسي عليه المزاد العلني دفع الثمن خلال 08 أيام من تاريخ الجلسة  و في حالة تخلفه عن الدفع و أعيد البيع \n\nيلزم بفرق الثمن .\n\nو هذا تأسيس غير سليم و مخالف للمادة 758 من نفس القانون المستند عليها  و التي تنص على أنه " يلزم الراسي عليه المزاد المتخلف عن دفع الثمن في أجل 08 أيام المنصوص عليها في المادة 757 أعلاه  بفرق الثمن إذا أعيد بيع العقار بثمن أقل من الثمن الراسي به المزاد . و في هذه الحالة  يتضمن منطوق الحكم الصادر برسو المزاد للبيع الثاني  إلزام المزايد المتخلف بفرق الثمن " .\n\nيستنتج منه أن القانون حدد الجهة القضائية التي يقدم أمامها طلب إلزام المتخلف عن الدفع  بفرق الثمن  و هو قاضي البيع بالمزاد العلني  و لا يجوز تقديمه بدعوى مستقلة أمام القسم المدني  فكان على قضاة المجلس التقيد بما جاء في أحكام المادة 758 ق إ م إ و لا يقبلوا الدعوى لمخالفتها الإجراءات القانونية .\n\nقضاة المجلس بقبولهم دعوى المطعون ضدهما و تمسكوا باختصاصهم للفصل فيها  رغم أنها من اختصاص قاضي البيوع  يكونوا قد تجاوزوا اختصاصهم النوعي  و لم يعطوا لقرارهم الأساس القانوني السليم  مما يتعين نقض و إبطال القرار المطعون فيه  على هذا الوجه  دون حاجة للرد على الوجهين المثارين من طرف الطاعن \n\nو لما لم تبق مسألة قانونية يفصل في المجلس بعد النقض ، فيكون النقض بدون إحالة طبقا للمادة 365 ف 01 ق إ م إ.\n\nـ حيث أن المصاريف القضائية يتحملها خاسر الطعن طبقا للمادة 378 من قانون الإجراءات المدنية و الإدارية.',
    'الغرفة المدنية: اختصاص نوعي',
    'الغرفة المدنية: حجية',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.3212, 0.1469],
#         [0.3212, 1.0000, 0.3200],
#         [0.1469, 0.3200, 1.0000]])

Training Details

Training Dataset

Unnamed Dataset

  • Size: 209,801 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 67 tokens
    • mean: 225.12 tokens
    • max: 512 tokens
    • min: 7 tokens
    • mean: 7.5 tokens
    • max: 9 tokens
    • min: 6 tokens
    • mean: 7.57 tokens
    • max: 15 tokens
  • Samples:
    anchor positive negative
    الغرفة الاجتماعية: حيث يبين من القرار المطعون فيه المؤيد للحكم المستأنف أن موضوع الدعوى يهدف إلى مطالبة المطعون ضده من الطاعنة بتمكينه من تعويض عن منحة الإحالة على التقاعد مؤسسا دعواه على كونه منتسب لدى الطاعنة منذ عدة سنوات إلى غاية إحالته على التقاعد وأنه مستحق لهذه المنحة بعد انخراطه وتعاقده مع الطاعنة وأن قضاة الموضوع استجابوا لطلبه وقضوا له بمبلغ مالي مقابل تعويض التقاعد في حين أن موضوع الدعوى لا يدخل ضمن النزاعات المذكورة على سبيل الحصر في المادة 500 من قانون الإجراءات المدنية والإدارية حتى يخوّل للمحكمة الإجتماعية الفصل في هذا النزاع هذا من جهة ومن جهة أخرى فإن النزاع لا يدخل ضمن العلاقات الفردية والجماعية في العمل بين العمال الأجراء والمستخدمين كما تنص على ذلك المادة الأولى من القانون 11/90 كما لا يدخل في النزاعات الفردية في العمل والمحاكم الفاصلة في المسائل الإجتماعية طالما أنه لا يوجد خلاف قائم بين عامل أجير ومستخدم في إطار تنفيذ علاقة العمل التي تربط الطرفين طبقا لأحكام المادة 02 من القانون 04/90 ومنه فإن النزاع المطروح لا تحكمه قواعد العمل والقواعد المطبقة بشأنه التي تفصل ف... الغرفة الاجتماعية: اختصاص نوعي الغرفة الاجتماعية: صفة
    الغرفة الاجتماعية: حيث يبين من القرار المطعون فيه المؤيد للحكم المستأنف أن موضوع الدعوى يهدف إلى مطالبة المطعون ضده من الطاعنة بتمكينه من تعويض عن منحة الإحالة على التقاعد مؤسسا دعواه على كونه منتسب لدى الطاعنة منذ عدة سنوات إلى غاية إحالته على التقاعد وأنه مستحق لهذه المنحة بعد انخراطه وتعاقده مع الطاعنة وأن قضاة الموضوع استجابوا لطلبه وقضوا له بمبلغ مالي مقابل تعويض التقاعد في حين أن موضوع الدعوى لا يدخل ضمن النزاعات المذكورة على سبيل الحصر في المادة 500 من قانون الإجراءات المدنية والإدارية حتى يخوّل للمحكمة الإجتماعية الفصل في هذا النزاع هذا من جهة ومن جهة أخرى فإن النزاع لا يدخل ضمن العلاقات الفردية والجماعية في العمل بين العمال الأجراء والمستخدمين كما تنص على ذلك المادة الأولى من القانون 11/90 كما لا يدخل في النزاعات الفردية في العمل والمحاكم الفاصلة في المسائل الإجتماعية طالما أنه لا يوجد خلاف قائم بين عامل أجير ومستخدم في إطار تنفيذ علاقة العمل التي تربط الطرفين طبقا لأحكام المادة 02 من القانون 04/90 ومنه فإن النزاع المطروح لا تحكمه قواعد العمل والقواعد المطبقة بشأنه التي تفصل ف... الغرفة الاجتماعية: اختصاص نوعي الغرفة الاجتماعية: طلبات
    الغرفة الاجتماعية: حيث يبين من القرار المطعون فيه المؤيد للحكم المستأنف أن موضوع الدعوى يهدف إلى مطالبة المطعون ضده من الطاعنة بتمكينه من تعويض عن منحة الإحالة على التقاعد مؤسسا دعواه على كونه منتسب لدى الطاعنة منذ عدة سنوات إلى غاية إحالته على التقاعد وأنه مستحق لهذه المنحة بعد انخراطه وتعاقده مع الطاعنة وأن قضاة الموضوع استجابوا لطلبه وقضوا له بمبلغ مالي مقابل تعويض التقاعد في حين أن موضوع الدعوى لا يدخل ضمن النزاعات المذكورة على سبيل الحصر في المادة 500 من قانون الإجراءات المدنية والإدارية حتى يخوّل للمحكمة الإجتماعية الفصل في هذا النزاع هذا من جهة ومن جهة أخرى فإن النزاع لا يدخل ضمن العلاقات الفردية والجماعية في العمل بين العمال الأجراء والمستخدمين كما تنص على ذلك المادة الأولى من القانون 11/90 كما لا يدخل في النزاعات الفردية في العمل والمحاكم الفاصلة في المسائل الإجتماعية طالما أنه لا يوجد خلاف قائم بين عامل أجير ومستخدم في إطار تنفيذ علاقة العمل التي تربط الطرفين طبقا لأحكام المادة 02 من القانون 04/90 ومنه فإن النزاع المطروح لا تحكمه قواعد العمل والقواعد المطبقة بشأنه التي تفصل ف... الغرفة الاجتماعية: اختصاص نوعي الغرفة الاجتماعية: استعجال
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.COSINE",
        "triplet_margin": 0.4
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 84,015 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 66 tokens
    • mean: 199.1 tokens
    • max: 443 tokens
    • min: 6 tokens
    • mean: 7.37 tokens
    • max: 9 tokens
    • min: 6 tokens
    • mean: 7.64 tokens
    • max: 15 tokens
  • Samples:
    anchor positive negative
    الغرفة المدنية: حيث أن هذا الوجه كسابقه غير سديد ذلك أن قضاة الموضوع إستبعدوا هذا الدفع على أساس أن النزاع الحالي لا يتعلق بنزع الملكية للمنفعة العامة والتي تكون الدولة طرفا أساسا فيها وطالما أن الطاعنة الجزائرية للمياه هي مؤسسة عمومية ذات طابع تجاري وصناعي والنزاع يرمي إلى التعويض عن التعدي على الملكية الخاصة المملوكة للخواص وعليه فإن الدفع بعدم الإختصاص إعتبره القضاة غيرمؤسس على صواب مما يتعين رفض الوجه. الغرفة المدنية: اختصاص نوعي الغرفة المدنية: اختصاص اقليمي
    الغرفة المدنية: حيث أن هذا الوجه كسابقه غير سديد ذلك أن قضاة الموضوع إستبعدوا هذا الدفع على أساس أن النزاع الحالي لا يتعلق بنزع الملكية للمنفعة العامة والتي تكون الدولة طرفا أساسا فيها وطالما أن الطاعنة الجزائرية للمياه هي مؤسسة عمومية ذات طابع تجاري وصناعي والنزاع يرمي إلى التعويض عن التعدي على الملكية الخاصة المملوكة للخواص وعليه فإن الدفع بعدم الإختصاص إعتبره القضاة غيرمؤسس على صواب مما يتعين رفض الوجه. الغرفة المدنية: اختصاص نوعي الغرفة المدنية: استعجال
    الغرفة المدنية: حيث أن هذا الوجه كسابقه غير سديد ذلك أن قضاة الموضوع إستبعدوا هذا الدفع على أساس أن النزاع الحالي لا يتعلق بنزع الملكية للمنفعة العامة والتي تكون الدولة طرفا أساسا فيها وطالما أن الطاعنة الجزائرية للمياه هي مؤسسة عمومية ذات طابع تجاري وصناعي والنزاع يرمي إلى التعويض عن التعدي على الملكية الخاصة المملوكة للخواص وعليه فإن الدفع بعدم الإختصاص إعتبره القضاة غيرمؤسس على صواب مما يتعين رفض الوجه. الغرفة المدنية: اختصاص نوعي الغرفة المدنية: حجية
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.COSINE",
        "triplet_margin": 0.4
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 640
  • per_device_eval_batch_size: 256
  • learning_rate: 2e-05
  • num_train_epochs: 15
  • warmup_ratio: 0.1
  • bf16: True
  • load_best_model_at_end: True
  • push_to_hub: True
  • hub_model_id: Monad-dz/dz-legal-ar-embeddings-v1
  • hub_private_repo: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 640
  • per_device_eval_batch_size: 256
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 15
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: Monad-dz/dz-legal-ar-embeddings-v1
  • hub_strategy: every_save
  • hub_private_repo: True
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss
0.1524 50 0.2884 0.2152
0.3049 100 0.1806 0.1395
0.4573 150 0.1274 0.1095
0.6098 200 0.0995 0.0941
0.7622 250 0.0835 0.0836
0.9146 300 0.0746 0.0771
1.0671 350 0.0631 0.0726
1.2195 400 0.0569 0.0701
1.3720 450 0.0495 0.0689
1.5244 500 0.0452 0.0667
1.6768 550 0.0406 0.0665
1.8293 600 0.0369 0.0667
1.9817 650 0.0334 0.0681
2.1341 700 0.0265 0.0673
2.2866 750 0.0248 0.0688
2.4390 800 0.0231 0.0689
2.5915 850 0.0209 0.0703
2.7439 900 0.0195 0.0698
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.12.3
  • Sentence Transformers: 5.2.0
  • Transformers: 4.57.5
  • PyTorch: 2.9.1+cu128
  • Accelerate: 1.12.0
  • Datasets: 4.4.2
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
3
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Monad-dz/dz-legal-ar-embeddings-v1

Papers for Monad-dz/dz-legal-ar-embeddings-v1