SentenceTransformer based on Omartificial-Intelligence-Space/Arabic-Triplet-Matryoshka-V2

This is a sentence-transformers model finetuned from Omartificial-Intelligence-Space/Arabic-Triplet-Matryoshka-V2. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("Monad-dz/Arabic-Triplet-Matryoshka-V2-finetuned-titles-v1")
# Run inference
sentences = [
    'والفرع الثاني\nلكن حيث ان الإستئناف كان من طرف النيابة ضد الحكم القاضي بالبراءة وأن ما يتمسك به الطاعن هو مقرر لخصمه ولا يجوز له أن يتمسك به.',
    'طعن بالنقض',
    'ادخال في الخصومة',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000,  0.0398, -0.2231],
#         [ 0.0398,  1.0000,  0.1186],
#         [-0.2231,  0.1186,  1.0000]])

Training Details

Training Dataset

Unnamed Dataset

  • Size: 161,301 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 21 tokens
    • mean: 93.41 tokens
    • max: 324 tokens
    • min: 3 tokens
    • mean: 3.59 tokens
    • max: 5 tokens
    • min: 3 tokens
    • mean: 4.17 tokens
    • max: 11 tokens
  • Samples:
    anchor positive negative
    حيث انه من المقرر قانون طبقا للمادة 207 من قانون الاجراءات المدنية و الادارية اذا وﺟـــد ارﺗــــﺒـــﺎط ﺑــــين خصومتين او اكثر معروضة اﻣـﺎم ﻧـﻔس اﻟﻘـﺎﺿي ﺟـﺎز ﻟﻪ ولحسن ﺳـﻴﺮ العدالة ضمها من تلقاء نفسه او بطلب من الخصوم و الفصل فيهما بحكم واحد.
    حيث ثبت للجنة ان القضية رقم 9536/19 مرتبطة بالقضية رقم 9484/19 لاتحاد الاطراف و الطلب و لحسن العدالة يتعين ضمهما للحكم فيهما بقرار واحد.
    ضم القضايا ضم ودمج العقوبات
    حيث انه من المقرر قانون طبقا للمادة 207 من قانون الاجراءات المدنية و الادارية اذا وﺟـــد ارﺗــــﺒـــﺎط ﺑــــين خصومتين او اكثر معروضة اﻣـﺎم ﻧـﻔس اﻟﻘـﺎﺿي ﺟـﺎز ﻟﻪ ولحسن ﺳـﻴﺮ العدالة ضمها من تلقاء نفسه او بطلب من الخصوم و الفصل فيهما بحكم واحد.
    حيث ثبت للجنة ان القضية رقم 9536/19 مرتبطة بالقضية رقم 9484/19 لاتحاد الاطراف و الطلب و لحسن العدالة يتعين ضمهما للحكم فيهما بقرار واحد.
    ضم القضايا طلبات
    حيث انه من المقرر قانون طبقا للمادة 207 من قانون الاجراءات المدنية و الادارية اذا وﺟـــد ارﺗــــﺒـــﺎط ﺑــــين خصومتين او اكثر معروضة اﻣـﺎم ﻧـﻔس اﻟﻘـﺎﺿي ﺟـﺎز ﻟﻪ ولحسن ﺳـﻴﺮ العدالة ضمها من تلقاء نفسه او بطلب من الخصوم و الفصل فيهما بحكم واحد.
    حيث ثبت للجنة ان القضية رقم 9536/19 مرتبطة بالقضية رقم 9484/19 لاتحاد الاطراف و الطلب و لحسن العدالة يتعين ضمهما للحكم فيهما بقرار واحد.
    ضم القضايا شهادة رقم الاعمال
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.COSINE",
        "triplet_margin": 0.4
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 58,482 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 27 tokens
    • mean: 110.43 tokens
    • max: 364 tokens
    • min: 3 tokens
    • mean: 4.49 tokens
    • max: 5 tokens
    • min: 3 tokens
    • mean: 4.33 tokens
    • max: 16 tokens
  • Samples:
    anchor positive negative
    و بناءا على طعن النائب العام رفضته المحكمة العليا موضوعا بقرارها المؤرخ في 20/03/2019. و اضاف بانه كان يقيم بفرنسا و له راتبا شهريا يقدر بـ 1200 يورو و بسبب ايداعه الحبس من 17/01/2017 الى 10/11/2017 فانه فقد عمله و توقف راتبه لمدة تعادل 33 شهر بما يعادل 42900 يورو. كما تعرض اثناء تواجده بالمؤسسة العقابية لانهيار عصبي و اغمي عليه مرتين . و ان من نتائج متابعته حجز سيارته من تاريخ 08/01/2017 الى غاية 04/06/2019 و قد دفع لادارة الجمارك مبلغ 25000 دج تكاليف المحشر كما دفع مبلغ 112000 دج ثمن تغيير عجلاتها الاربعة و مبلغ 60000 دج اتعاب المحامي الاول الاستاذ مرسلي و مبلغ 20000 دج اتعاب المحامية قرماط حياة.و عليه فانه يلتمس تعويضه مبلغ 6.000.000 دج تعويضا ماديا عن مدة وضعه تحت النظر و الحبس الاحتياطي و مبلغ 8.000.000 دج تعويض عن حرمانه من اجرته و الاضرار اللاحقة باسرته من جراء معانتها بسبب حبس معيلها الوحيد. حجز جمارك
    و بناءا على طعن النائب العام رفضته المحكمة العليا موضوعا بقرارها المؤرخ في 20/03/2019. و اضاف بانه كان يقيم بفرنسا و له راتبا شهريا يقدر بـ 1200 يورو و بسبب ايداعه الحبس من 17/01/2017 الى 10/11/2017 فانه فقد عمله و توقف راتبه لمدة تعادل 33 شهر بما يعادل 42900 يورو. كما تعرض اثناء تواجده بالمؤسسة العقابية لانهيار عصبي و اغمي عليه مرتين . و ان من نتائج متابعته حجز سيارته من تاريخ 08/01/2017 الى غاية 04/06/2019 و قد دفع لادارة الجمارك مبلغ 25000 دج تكاليف المحشر كما دفع مبلغ 112000 دج ثمن تغيير عجلاتها الاربعة و مبلغ 60000 دج اتعاب المحامي الاول الاستاذ مرسلي و مبلغ 20000 دج اتعاب المحامية قرماط حياة.و عليه فانه يلتمس تعويضه مبلغ 6.000.000 دج تعويضا ماديا عن مدة وضعه تحت النظر و الحبس الاحتياطي و مبلغ 8.000.000 دج تعويض عن حرمانه من اجرته و الاضرار اللاحقة باسرته من جراء معانتها بسبب حبس معيلها الوحيد. حجز مصاريف الزيارة
    و بناءا على طعن النائب العام رفضته المحكمة العليا موضوعا بقرارها المؤرخ في 20/03/2019. و اضاف بانه كان يقيم بفرنسا و له راتبا شهريا يقدر بـ 1200 يورو و بسبب ايداعه الحبس من 17/01/2017 الى 10/11/2017 فانه فقد عمله و توقف راتبه لمدة تعادل 33 شهر بما يعادل 42900 يورو. كما تعرض اثناء تواجده بالمؤسسة العقابية لانهيار عصبي و اغمي عليه مرتين . و ان من نتائج متابعته حجز سيارته من تاريخ 08/01/2017 الى غاية 04/06/2019 و قد دفع لادارة الجمارك مبلغ 25000 دج تكاليف المحشر كما دفع مبلغ 112000 دج ثمن تغيير عجلاتها الاربعة و مبلغ 60000 دج اتعاب المحامي الاول الاستاذ مرسلي و مبلغ 20000 دج اتعاب المحامية قرماط حياة.و عليه فانه يلتمس تعويضه مبلغ 6.000.000 دج تعويضا ماديا عن مدة وضعه تحت النظر و الحبس الاحتياطي و مبلغ 8.000.000 دج تعويض عن حرمانه من اجرته و الاضرار اللاحقة باسرته من جراء معانتها بسبب حبس معيلها الوحيد. حجز محامي
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.COSINE",
        "triplet_margin": 0.4
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 640
  • per_device_eval_batch_size: 256
  • learning_rate: 2e-05
  • num_train_epochs: 15
  • warmup_ratio: 0.1
  • bf16: True
  • load_best_model_at_end: True
  • push_to_hub: True
  • hub_model_id: Monad-dz/Arabic-Triplet-Matryoshka-V2-finetuned-titles-v1

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 640
  • per_device_eval_batch_size: 256
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 15
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: Monad-dz/Arabic-Triplet-Matryoshka-V2-finetuned-titles-v1
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss
0.3953 100 0.3022 0.1735
0.7905 200 0.1247 0.0909
1.1858 300 0.0868 0.0752
1.5810 400 0.0688 0.0658
1.9763 500 0.0588 0.0638
2.3715 600 0.0482 0.0584
2.7668 700 0.0429 0.0575
3.1621 800 0.038 0.0588
3.5573 900 0.0329 0.0567
3.9526 1000 0.0304 0.0563
4.3478 1100 0.026 0.0593
4.7431 1200 0.0239 0.0563
5.1383 1300 0.0221 0.0580
5.5336 1400 0.0192 0.0573
5.9289 1500 0.0183 0.0603
6.3241 1600 0.016 0.0601
6.7194 1700 0.0155 0.0606
7.1146 1800 0.0138 0.0626
7.5099 1900 0.0122 0.0617
7.9051 2000 0.0132 0.0614
8.3004 2100 0.0106 0.0633
8.6957 2200 0.0106 0.0603
9.0909 2300 0.01 0.0613
9.4862 2400 0.0086 0.0624
9.8814 2500 0.009 0.0667
10.2767 2600 0.0082 0.0668
10.6719 2700 0.0075 0.0654
11.0672 2800 0.0079 0.0684
11.4625 2900 0.0068 0.0651
11.8577 3000 0.0067 0.0680
12.2530 3100 0.0062 0.0650
12.6482 3200 0.006 0.0659
13.0435 3300 0.0061 0.0677
13.4387 3400 0.0055 0.0681
13.8340 3500 0.0058 0.0669
14.2292 3600 0.0053 0.0675
14.6245 3700 0.0052 0.0671
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.12.3
  • Sentence Transformers: 5.2.0
  • Transformers: 4.57.3
  • PyTorch: 2.9.1+cu128
  • Accelerate: 1.12.0
  • Datasets: 4.4.1
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}
Downloads last month
14
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Monad-dz/Arabic-Triplet-Matryoshka-V2-finetuned-titles-v1

Papers for Monad-dz/Arabic-Triplet-Matryoshka-V2-finetuned-titles-v1