raialvaro
/

colbert-610M-EuroBERT

@@ -2,13 +2,12 @@
 tags:
 - ColBERT
 - PyLate
-- sentence-transformers
 - sentence-similarity
 - feature-extraction
 - generated_from_trainer
 - dataset_size:909188
 - loss:Contrastive
-base_model: colbert-ir/colbertv2.0
 datasets:
 - baconnier/rag-comprehensive-triplets
 pipeline_tag: sentence-similarity
@@ -16,7 +15,7 @@ library_name: PyLate
 metrics:
 - accuracy
 model-index:
-- name: PyLate model based on colbert-ir/colbertv2.0
   results:
   - task:
       type: col-berttriplet
@@ -28,40 +27,35 @@ model-index:
     - type: accuracy
       value: 0.9841766953468323
       name: Accuracy
 ---
-# PyLate model based on colbert-ir/colbertv2.0
-This is a [PyLate](https://github.com/lightonai/pylate) model finetuned from [colbert-ir/colbertv2.0](https://huggingface.co/colbert-ir/colbertv2.0) on the [rag-comprehensive-triplets](https://huggingface.co/datasets/baconnier/rag-comprehensive-triplets) dataset. It maps sentences & paragraphs to sequences of 128-dimensional dense vectors and can be used for semantic textual similarity using the MaxSim operator.
-## Model Details
-### Model Description
-- **Model Type:** PyLate model
-- **Base model:** [colbert-ir/colbertv2.0](https://huggingface.co/colbert-ir/colbertv2.0) <!-- at revision c1e84128e85ef755c096a95bdb06b47793b13acf -->
-- **Document Length:** 180 tokens
-- **Query Length:** 32 tokens
-- **Output Dimensionality:** 128 tokens
-- **Similarity Function:** MaxSim
-- **Training Dataset:**
-    - [rag-comprehensive-triplets](https://huggingface.co/datasets/baconnier/rag-comprehensive-triplets)
-<!-- - **Language:** Unknown -->
-<!-- - **License:** Unknown -->
-### Model Sources
-- **Documentation:** [PyLate Documentation](https://lightonai.github.io/pylate/)
-- **Repository:** [PyLate on GitHub](https://github.com/lightonai/pylate)
-- **Hugging Face:** [PyLate models on Hugging Face](https://huggingface.co/models?library=PyLate)
-### Full Model Architecture
-```
-ColBERT(
-  (0): Transformer({'max_seq_length': 179, 'do_lower_case': False}) with Transformer model: BertModel
-  (1): Dense({'in_features': 768, 'out_features': 128, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
-)
-```
 ## Usage
 First install the PyLate library:
@@ -70,406 +64,72 @@ First install the PyLate library:
 pip install -U pylate
 ```
-### Retrieval
-PyLate provides a streamlined interface to index and retrieve documents using ColBERT models. The index leverages the Voyager HNSW index to efficiently handle document embeddings and enable fast retrieval.
-#### Indexing documents
-First, load the ColBERT model and initialize the Voyager index, then encode and index your documents:
-```python
-from pylate import indexes, models, retrieve
-# Step 1: Load the ColBERT model
-model = models.ColBERT(
-    model_name_or_path=pylate_model_id,
-)
-# Step 2: Initialize the Voyager index
-index = indexes.Voyager(
-    index_folder="pylate-index",
-    index_name="index",
-    override=True,  # This overwrites the existing index if any
-)
-# Step 3: Encode the documents
-documents_ids = ["1", "2", "3"]
-documents = ["document 1 text", "document 2 text", "document 3 text"]
-documents_embeddings = model.encode(
-    documents,
-    batch_size=32,
-    is_query=False,  # Ensure that it is set to False to indicate that these are documents, not queries
-    show_progress_bar=True,
-)
-# Step 4: Add document embeddings to the index by providing embeddings and corresponding ids
-index.add_documents(
-    documents_ids=documents_ids,
-    documents_embeddings=documents_embeddings,
-)
-```
-Note that you do not have to recreate the index and encode the documents every time. Once you have created an index and added the documents, you can re-use the index later by loading it:
 ```python
-# To load an index, simply instantiate it with the correct folder/name and without overriding it
-index = indexes.Voyager(
-    index_folder="pylate-index",
-    index_name="index",
-)
 ```
-#### Retrieving top-k documents for queries
-Once the documents are indexed, you can retrieve the top-k most relevant documents for a given set of queries.
-To do so, initialize the ColBERT retriever with the index you want to search in, encode the queries and then retrieve the top-k documents to get the top matches ids and relevance scores:
-```python
-# Step 1: Initialize the ColBERT retriever
-retriever = retrieve.ColBERT(index=index)
-# Step 2: Encode the queries
-queries_embeddings = model.encode(
-    ["query for document 3", "query for document 1"],
-    batch_size=32,
-    is_query=True,  #  # Ensure that it is set to False to indicate that these are queries
-    show_progress_bar=True,
-)
-# Step 3: Retrieve top-k documents
-scores = retriever.retrieve(
-    queries_embeddings=queries_embeddings,
-    k=10,  # Retrieve the top 10 matches for each query
-)
-```
-### Reranking
-If you only want to use the ColBERT model to perform reranking on top of your first-stage retrieval pipeline without building an index, you can simply use rank function and pass the queries and documents to rerank:
-```python
-from pylate import rank, models
-queries = [
-    "query A",
-    "query B",
-]
-documents = [
-    ["document A", "document B"],
-    ["document 1", "document C", "document B"],
-]
-documents_ids = [
-    [1, 2],
-    [1, 3, 2],
-]
-model = models.ColBERT(
-    model_name_or_path=pylate_model_id,
-)
-queries_embeddings = model.encode(
-    queries,
-    is_query=True,
-)
-documents_embeddings = model.encode(
-    documents,
-    is_query=False,
-)
-reranked_documents = rank.rerank(
-    documents_ids=documents_ids,
-    queries_embeddings=queries_embeddings,
-    documents_embeddings=documents_embeddings,
-)
-```
-<!--
-### Direct Usage (Transformers)
-<details><summary>Click to see the direct usage in Transformers</summary>
-</details>
--->
-<!--
-### Downstream Usage (Sentence Transformers)
-You can finetune this model on your own dataset.
-<details><summary>Click to expand</summary>
-</details>
--->
-<!--
-### Out-of-Scope Use
-*List how the model may foreseeably be misused and address what users ought not to do with the model.*
--->
-## Evaluation
-### Metrics
-#### Col BERTTriplet
-* Evaluated with <code>pylate.evaluation.colbert_triplet.ColBERTTripletEvaluator</code>
-| Metric       | Value      |
-|:-------------|:-----------|
-| **accuracy** | **0.9842** |
-<!--
-## Bias, Risks and Limitations
-*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
--->
-<!--
-### Recommendations
-*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
--->
-## Training Details
-### Training Dataset
-#### rag-comprehensive-triplets
-* Dataset: [rag-comprehensive-triplets](https://huggingface.co/datasets/baconnier/rag-comprehensive-triplets) at [678e83e](https://huggingface.co/datasets/baconnier/rag-comprehensive-triplets/tree/678e83ed6a74d17c38b33344168abc7787e39754)
-* Size: 909,188 training samples
-* Columns: <code>query</code>, <code>positive</code>, <code>negative</code>, <code>original_id</code>, <code>dataset_source</code>, <code>category</code>, and <code>language</code>
-* Approximate statistics based on the first 1000 samples:
-  |         | query                                                                             | positive                                                                          | negative                                                                          | original_id                                                                     | dataset_source                                                                    | category                                                                        | language                                                                       |
-  |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------|:-------------------------------------------------------------------------------|
-  | type    | string                                                                            | string                                                                            | string                                                                            | string                                                                          | string                                                                            | string                                                                          | string                                                                         |
-  | details | <ul><li>min: 9 tokens</li><li>mean: 26.32 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 29.53 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 30.37 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 5.22 tokens</li><li>max: 6 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 21.0 tokens</li><li>max: 21 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 6.25 tokens</li><li>max: 7 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 4.0 tokens</li><li>max: 4 tokens</li></ul> |
-* Samples:
-  | query                                                                                                    | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       | negative                                                                                                                                                                           | original_id        | dataset_source                                                 | category               | language        |
-  |:---------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------|:---------------------------------------------------------------|:-----------------------|:----------------|
-  | <code>Dime los nombres de cinco equipos deportivos profesionales que están ubicados en Nueva York</code> | <code>Los equipos deportivos profesionales del estado de Nueva York son los Yankees de Nueva York, los Mets de Nueva York, los Islanders de Nueva York, los Nets de Brooklyn y los Knicks de Nueva York</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 | <code>En el estado de Nueva York, los cinco equipos deportivos profesionales son los Yankees, los Mets, los Rangers, los Nets y los Knicks</code>                                  | <code>12558</code> | <code>argilla/databricks-dolly-15k-curated-multilingual</code> | <code>open_qa</code>   | <code>es</code> |
-  | <code>¿Qué significa eso de MBB y eso que tiene que ver con las consultoras?</code>                      | <code>McKinsey & Company es una empresa global de consultorÃa de gestiÃ³n fundada en 1926 por el profesor de la Universidad de Chicago James O. McKinsey, que ofrece servicios profesionales a empresas, gobiernos y otras organizaciones. McKinsey es la mayor y mÃ¡s antigua de las "Tres Grandes" consultoras de gestiÃ³n (MBB), las tres mayores consultoras de estrategia del mundo por ingresos. La empresa se centra principalmente en las finanzas y operaciones de sus clientes.<br><br>Bajo la direcciÃ³n de Marvin Bower, McKinsey se expandiÃ³ por Europa durante las dÃ©cadas de 1940 y 1950. En los aÃ±os 60, Fred Gluck, de McKinsey, junto con Bruce Henderson, de Boston Consulting Group, Bill Bain, de Bain & Company, y Michael Porter, de Harvard Business School, transformaron la cultura empresarial Una publicaciÃ³n de 1975 de John L. Neuman, de McKinsey, introdujo la prÃ¡ctica empresarial del "anÃ¡lisis del valor de los gastos generales", que contribuyÃ³ a una tendencia a la reducciÃ³n que eliminÃ³ muchos pue...</code> | <code>McKinsey & Company es una empresa global de servicios financieros fundada en 1926 por James O. McKinsey, que ofrece servicios de consultorÃa a empresas y gobiernos.</code> | <code>11131</code> | <code>argilla/databricks-dolly-15k-curated-multilingual</code> | <code>closed_qa</code> | <code>es</code> |
-  | <code>Tour de france desde 1903 hasta ahora, ¿alguna vez no ha habido la carrera?</code>                 | <code>El tour de france se celebra desde 1903, y las Ãºnicas cancelaciones destacadas se produjeron con motivo de las dos guerras mundiales</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | <code>El tour de france ha corrido todos los aÃ±os desde 1903, excepto durante la Primera Guerra Mundial.</code>                                                                   | <code>14640</code> | <code>argilla/databricks-dolly-15k-curated-multilingual</code> | <code>closed_qa</code> | <code>es</code> |
-* Loss: <code>pylate.losses.contrastive.Contrastive</code>
-### Evaluation Dataset
-#### rag-comprehensive-triplets
-* Dataset: [rag-comprehensive-triplets](https://huggingface.co/datasets/baconnier/rag-comprehensive-triplets) at [678e83e](https://huggingface.co/datasets/baconnier/rag-comprehensive-triplets/tree/678e83ed6a74d17c38b33344168abc7787e39754)
-* Size: 909,188 evaluation samples
-* Columns: <code>query</code>, <code>positive</code>, <code>negative</code>, <code>original_id</code>, <code>dataset_source</code>, <code>category</code>, and <code>language</code>
-* Approximate statistics based on the first 1000 samples:
-  |         | query                                                                             | positive                                                                          | negative                                                                          | original_id                                                                     | dataset_source                                                                    | category                                                                        | language                                                                       |
-  |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------|:-------------------------------------------------------------------------------|
-  | type    | string                                                                            | string                                                                            | string                                                                            | string                                                                          | string                                                                            | string                                                                          | string                                                                         |
-  | details | <ul><li>min: 9 tokens</li><li>mean: 26.28 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 28.98 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 6 tokens</li><li>mean: 29.95 tokens</li><li>max: 32 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 5.18 tokens</li><li>max: 6 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 21.0 tokens</li><li>max: 21 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 6.23 tokens</li><li>max: 7 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 4.0 tokens</li><li>max: 4 tokens</li></ul> |
-* Samples:
-  | query                                                                                                                                           | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | negative                                                                                                                                                                 | original_id       | dataset_source                                                 | category                            | language        |
-  |:------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------|:---------------------------------------------------------------|:------------------------------------|:----------------|
-  | <code>Dado el texto, ¿cuál es el tamaño de la población del país de Perú?</code>                                                                | <code>PerÃº tiene una poblaciÃ³n de mÃ¡s de 34 millones de habitantes.</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        | <code>La poblaciÃ³n del paÃs de PerÃº es de mÃ¡s de 32 millones de habitantes.</code>                                                                                   | <code>7265</code> | <code>argilla/databricks-dolly-15k-curated-multilingual</code> | <code>closed_qa</code>              | <code>es</code> |
-  | <code>¿Cuál es el significado de 'acoplamiento de mareas'?</code>                                                                               | <code>El acoplamiento de marea o rotaciÃ³n sincrÃ³nica es lo que hace que la cara de un objeto astronÃ³mico estÃ© fija apuntando a otro, igual que la cara visible de la Luna estÃ¡ siempre apuntando a la Tierra. Un objeto acoplado tarda el mismo tiempo en girar sobre su eje que en trasladarse alrededor de su compaÃ±ero. Esta rotaciÃ³n sincrÃ³nica, tambiÃ©n conocida como rotaciÃ³n capturada o rotaciÃ³n sincrÃ³nica, hace que un hemisferio apunte continuamente hacia el objeto compaÃ±ero. Normalmente, sÃ³lo el satÃ©lite se acopla alrededor de un planeta mayor, pero si la diferencia de masa entre los dos cuerpos y la distancia entre ellos es pequeÃ±a, ambos objetos pueden tener un acoplamiento de marea recÃproco, como PlutÃ³n y Caronte.</code>                                                                                                                                                                                                                                                                                         | <code>El acoplamiento de mareas es un fenÃ³meno astronÃ³mico en el que un objeto gira alrededor de otro objeto, manteniendo siempre la misma distancia hacia Ã©l.</code> | <code>2892</code> | <code>argilla/databricks-dolly-15k-curated-multilingual</code> | <code>closed_qa</code>              | <code>es</code> |
-  | <code>¿Trópicos a la nieve fue co-ganadora de la Medalla de Oro del Instituto Australiano de Cinematografía a la Mejor Película en 1965?</code> | <code>Del trÃ³pico a la nieve es un cortometraje documental australiano de 1964. Fue una de las pelÃculas australianas mÃ¡s conocidas de los aÃ±os 60. Se produjo bajo los auspicios de la Unidad CinematogrÃ¡fica de la Commonwealth (CFU), mÃ¡s tarde reincorporada como Film Australia. Fue codirigido por Jack Lee y Richard (Dick) Mason, y contÃ³ con Reg Livermore (en su primer papel cinematogrÃ¡fico) como uno de los "narradores".<br><br>Una de las tareas habituales de la UFC en aquella Ã©poca era la producciÃ³n de cortometrajes destinados a su distribuciÃ³n en el extranjero y cuyo objetivo era promocionar Australia como destino atractivo para emigrantes y turistas. Del trÃ³pico a la nieve supuso una ruptura significativa con el estilo tradicional de este tipo de largometrajes, y destaca por su enfoque subversivo y satÃrico del tema.<br><br>En lugar de utilizar la narraciÃ³n forzada y autoritaria a una sola voz, tÃpica de los "documentales de promociÃ³n" de la Ã©poca, Mason y Lee optaron por un enfoque so...</code> | <code>Del trÃ³pico a la nieve es un documental australiano de 1964 que ganÃ³ el premio al mejor director en 1965.</code>                                                 | <code>6611</code> | <code>argilla/databricks-dolly-15k-curated-multilingual</code> | <code>information_extraction</code> | <code>es</code> |
-* Loss: <code>pylate.losses.contrastive.Contrastive</code>
-### Training Hyperparameters
-#### Non-Default Hyperparameters
-- `eval_strategy`: steps
-- `per_device_train_batch_size`: 16
-- `per_device_eval_batch_size`: 16
-- `learning_rate`: 2e-05
-- `num_train_epochs`: 1
-- `fp16`: True
-- `load_best_model_at_end`: True
-#### All Hyperparameters
-<details><summary>Click to expand</summary>
-- `overwrite_output_dir`: False
-- `do_predict`: False
-- `eval_strategy`: steps
-- `prediction_loss_only`: True
-- `per_device_train_batch_size`: 16
-- `per_device_eval_batch_size`: 16
-- `per_gpu_train_batch_size`: None
-- `per_gpu_eval_batch_size`: None
-- `gradient_accumulation_steps`: 1
-- `eval_accumulation_steps`: None
-- `torch_empty_cache_steps`: None
-- `learning_rate`: 2e-05
-- `weight_decay`: 0.0
-- `adam_beta1`: 0.9
-- `adam_beta2`: 0.999
-- `adam_epsilon`: 1e-08
-- `max_grad_norm`: 1.0
-- `num_train_epochs`: 1
-- `max_steps`: -1
-- `lr_scheduler_type`: linear
-- `lr_scheduler_kwargs`: {}
-- `warmup_ratio`: 0.0
-- `warmup_steps`: 0
-- `log_level`: passive
-- `log_level_replica`: warning
-- `log_on_each_node`: True
-- `logging_nan_inf_filter`: True
-- `save_safetensors`: True
-- `save_on_each_node`: False
-- `save_only_model`: False
-- `restore_callback_states_from_checkpoint`: False
-- `no_cuda`: False
-- `use_cpu`: False
-- `use_mps_device`: False
-- `seed`: 42
-- `data_seed`: None
-- `jit_mode_eval`: False
-- `use_ipex`: False
-- `bf16`: False
-- `fp16`: True
-- `fp16_opt_level`: O1
-- `half_precision_backend`: auto
-- `bf16_full_eval`: False
-- `fp16_full_eval`: False
-- `tf32`: None
-- `local_rank`: 0
-- `ddp_backend`: None
-- `tpu_num_cores`: None
-- `tpu_metrics_debug`: False
-- `debug`: []
-- `dataloader_drop_last`: False
-- `dataloader_num_workers`: 0
-- `dataloader_prefetch_factor`: None
-- `past_index`: -1
-- `disable_tqdm`: False
-- `remove_unused_columns`: True
-- `label_names`: None
-- `load_best_model_at_end`: True
-- `ignore_data_skip`: False
-- `fsdp`: []
-- `fsdp_min_num_params`: 0
-- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
-- `fsdp_transformer_layer_cls_to_wrap`: None
-- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
-- `deepspeed`: None
-- `label_smoothing_factor`: 0.0
-- `optim`: adamw_torch
-- `optim_args`: None
-- `adafactor`: False
-- `group_by_length`: False
-- `length_column_name`: length
-- `ddp_find_unused_parameters`: None
-- `ddp_bucket_cap_mb`: None
-- `ddp_broadcast_buffers`: False
-- `dataloader_pin_memory`: True
-- `dataloader_persistent_workers`: False
-- `skip_memory_metrics`: True
-- `use_legacy_prediction_loop`: False
-- `push_to_hub`: False
-- `resume_from_checkpoint`: None
-- `hub_model_id`: None
-- `hub_strategy`: every_save
-- `hub_private_repo`: None
-- `hub_always_push`: False
-- `gradient_checkpointing`: False
-- `gradient_checkpointing_kwargs`: None
-- `include_inputs_for_metrics`: False
-- `include_for_metrics`: []
-- `eval_do_concat_batches`: True
-- `fp16_backend`: auto
-- `push_to_hub_model_id`: None
-- `push_to_hub_organization`: None
-- `mp_parameters`:
-- `auto_find_batch_size`: False
-- `full_determinism`: False
-- `torchdynamo`: None
-- `ray_scope`: last
-- `ddp_timeout`: 1800
-- `torch_compile`: False
-- `torch_compile_backend`: None
-- `torch_compile_mode`: None
-- `dispatch_batches`: None
-- `split_batches`: None
-- `include_tokens_per_second`: False
-- `include_num_input_tokens_seen`: False
-- `neftune_noise_alpha`: None
-- `optim_target_modules`: None
-- `batch_eval_metrics`: False
-- `eval_on_start`: False
-- `use_liger_kernel`: False
-- `eval_use_gather_object`: False
-- `average_tokens_across_devices`: False
-- `prompts`: None
-- `batch_sampler`: batch_sampler
-- `multi_dataset_batch_sampler`: proportional
-</details>
-### Training Logs
-| Epoch      | Step     | Training Loss | Validation Loss | accuracy |
-|:----------:|:--------:|:-------------:|:---------------:|:--------:|
-| 0.0538     | 500      | 1.1908        | -               | -        |
-| 0          | 0        | -             | -               | 0.7445   |
-| 0.0538     | 500      | -             | 0.8940          | -        |
-| 0.1076     | 1000     | 0.879         | -               | -        |
-| 0          | 0        | -             | -               | 0.7974   |
-| 0.1076     | 1000     | -             | 0.7308          | -        |
-| 0.1615     | 1500     | 0.7334        | -               | -        |
-| 0          | 0        | -             | -               | 0.8312   |
-| 0.1615     | 1500     | -             | 0.6040          | -        |
-| 0.2153     | 2000     | 0.6319        | -               | -        |
-| 0          | 0        | -             | -               | 0.8508   |
-| 0.2153     | 2000     | -             | 0.5380          | -        |
-| 0.2691     | 2500     | 0.5576        | -               | -        |
-| 0          | 0        | -             | -               | 0.8831   |
-| 0.2691     | 2500     | -             | 0.4493          | -        |
-| 0.3229     | 3000     | 0.5005        | -               | -        |
-| 0          | 0        | -             | -               | 0.9082   |
-| 0.3229     | 3000     | -             | 0.3969          | -        |
-| 0.3767     | 3500     | 0.4591        | -               | -        |
-| 0          | 0        | -             | -               | 0.9267   |
-| 0.3767     | 3500     | -             | 0.3430          | -        |
-| 0.4306     | 4000     | 0.3944        | -               | -        |
-| 0          | 0        | -             | -               | 0.9293   |
-| 0.4306     | 4000     | -             | 0.2984          | -        |
-| 0.4844     | 4500     | 0.3674        | -               | -        |
-| 0          | 0        | -             | -               | 0.9438   |
-| 0.4844     | 4500     | -             | 0.2657          | -        |
-| 0.5382     | 5000     | 0.3351        | -               | -        |
-| 0          | 0        | -             | -               | 0.9492   |
-| 0.5382     | 5000     | -             | 0.2365          | -        |
-| 0.5920     | 5500     | 0.3019        | -               | -        |
-| 0          | 0        | -             | -               | 0.9614   |
-| 0.5920     | 5500     | -             | 0.2020          | -        |
-| 0.6459     | 6000     | 0.2769        | -               | -        |
-| 0          | 0        | -             | -               | 0.9637   |
-| 0.6459     | 6000     | -             | 0.1839          | -        |
-| 0.6997     | 6500     | 0.2578        | -               | -        |
-| 0          | 0        | -             | -               | 0.9738   |
-| 0.6997     | 6500     | -             | 0.1623          | -        |
-| 0.7535     | 7000     | 0.2362        | -               | -        |
-| 0          | 0        | -             | -               | 0.9761   |
-| 0.7535     | 7000     | -             | 0.1528          | -        |
-| 0.8073     | 7500     | 0.2239        | -               | -        |
-| 0          | 0        | -             | -               | 0.9791   |
-| 0.8073     | 7500     | -             | 0.1407          | -        |
-| 0.8611     | 8000     | 0.2069        | -               | -        |
-| 0          | 0        | -             | -               | 0.9802   |
-| 0.8611     | 8000     | -             | 0.1339          | -        |
-| 0.9150     | 8500     | 0.2067        | -               | -        |
-| 0          | 0        | -             | -               | 0.9830   |
-| 0.9150     | 8500     | -             | 0.1290          | -        |
-| **0.9688** | **9000** | **0.1935**    | **-**           | **-**    |
-| 0          | 0        | -             | -               | 0.9842   |
-| **0.9688** | **9000** | **-**         | **0.1221**      | **-**    |
-* The bold row denotes the saved checkpoint.
-### Framework Versions
 - Python: 3.10.12
 - Sentence Transformers: 3.4.1
 - PyLate: 1.1.7
@@ -479,48 +139,9 @@ You can finetune this model on your own dataset.
 - Datasets: 3.3.1
 - Tokenizers: 0.21.0
-## Citation
-### BibTeX
-#### Sentence Transformers
-```bibtex
-@inproceedings{reimers-2019-sentence-bert,
-    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
-    author = "Reimers, Nils and Gurevych, Iryna",
-    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
-    month = "11",
-    year = "2019",
-    publisher = "Association for Computational Linguistics",
-    url = "https://arxiv.org/abs/1908.10084"
-}
-```
-#### PyLate
-```bibtex
-@misc{PyLate,
-title={PyLate: Flexible Training and Retrieval for Late Interaction Models},
-author={Chaffin, Antoine and Sourty, Raphaël},
-url={https://github.com/lightonai/pylate},
-year={2024}
-}
-```
-<!--
-## Glossary
-*Clearly define terms in order to be accessible across audiences.*
--->
-<!--
-## Model Card Authors
-*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
--->
-<!--
-## Model Card Contact
-*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
--->

 tags:
 - ColBERT
 - PyLate
 - sentence-similarity
 - feature-extraction
 - generated_from_trainer
 - dataset_size:909188
 - loss:Contrastive
+base_model: EuroBERT/EuroBERT-610m
 datasets:
 - baconnier/rag-comprehensive-triplets
 pipeline_tag: sentence-similarity
 metrics:
 - accuracy
 model-index:
+- name: PyLate model based on EuroBERT/EuroBERT-610m
   results:
   - task:
       type: col-berttriplet
     - type: accuracy
       value: 0.9841766953468323
       name: Accuracy
+license: apache-2.0
+language:
+- es
+- en
 ---
+## Fine-Tuned Model
+**`raialvaro/colbert-610M-EuroBERT`**
+## Base Model
+**`EuroBERT/EuroBERT-610m`**
+## Fine-Tuning Method
+Fine-tuning was performed using **[PyLate](https://github.com/lightonai/pylate)**, with contrastive training on the [rag-comprehensive-triplets](https://huggingface.co/datasets/baconnier/rag-comprehensive-triplets) dataset. It maps sentences & paragraphs to sequences of 128-dimensional dense vectors and can be used for semantic textual similarity using the MaxSim operator.
+## Dataset
+**[`baconnier/rag-comprehensive-triplets`](https://huggingface.co/datasets/baconnier/rag-comprehensive-triplets)**
+### Description
+This dataset has been filtered for the Spanish language containing **303,000 examples**, designed for **rag-comprehensive-triplets**.
+## Fine-Tuning Details
+- The model was trained using the **Contrastive Training**.
+- Evaluated with <code>pylate.evaluation.colbert_triplet.ColBERTTripletEvaluator</code>
+| Metric       | Value      |
+|:-------------|:-----------|
+| **accuracy** | **0.98417** |
 ## Usage
 First install the PyLate library:
 pip install -U pylate
 ```
+### Calculate Similarity
 ```python
+import torch
+from pylate import models
+# Load the ColBERT model
+model = models.ColBERT("raialvaro/colbert-610M-EuroBERT", trust_remote_code=True)
+# Move the model to GPU if available, otherwise use CPU
+device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+model.to(device)
+# Example data for similarity comparison
+query = "¿Cuál es la capital de España?"  # Query sentence
+positive_doc = "La capital de España es Madrid."  # Relevant document
+negative_doc = "Florida es un estado en los Estados Unidos."  # Irrelevant document
+sentences = [query, positive_doc, negative_doc]  # Combine all texts
+# Tokenize the input sentences using ColBERT's tokenizer
+inputs = model.tokenize(sentences)
+# Move all input tensors to the same device as the model (GPU/CPU)
+inputs = {key: value.to(device) for key, value in inputs.items()}
+# Generate token embeddings (no gradients needed for inference)
+with torch.no_grad():
+    embeddings_dict = model(inputs)
+    embeddings = embeddings_dict['token_embeddings']
+# Define ColBERT's MaxSim similarity function
+def colbert_similarity(query_emb, doc_emb):
+    """
+    Computes ColBERT-style similarity between query and document embeddings.
+    Uses maximum similarity (MaxSim) between individual tokens.
+    Args:
+        query_emb: [query_tokens, embedding_dim]
+        doc_emb: [doc_tokens, embedding_dim]
+    Returns:
+        Normalized similarity score
+    """
+    # Compute dot product between all token pairs
+    similarity_matrix = torch.matmul(query_emb, doc_emb.T)
+    # Get maximum similarity for each query token (MaxSim)
+    max_similarities = similarity_matrix.max(dim=1)[0]
+    # Return average of maximum similarities (normalized by query length)
+    return max_similarities.sum() / query_emb.shape[0]
+# Extract embeddings for each text
+query_emb = embeddings[0]
+positive_emb = embeddings[1]
+negative_emb = embeddings[2]
+# Compute similarity scores
+positive_score = colbert_similarity(query_emb, positive_emb)
+negative_score = colbert_similarity(query_emb, negative_emb)
+print(f"Similarity with positive document: {positive_score.item():.4f}")
+print(f"Similarity with negative document: {negative_score.item():.4f}")
 ```
+## Framework Versions
 - Python: 3.10.12
 - Sentence Transformers: 3.4.1
 - PyLate: 1.1.7
 - Datasets: 3.3.1
 - Tokenizers: 0.21.0
+## Purpose
+This tuned model is designed for **Spanish applications** that require the use of **efficient semantic search** comparing embeddings at the token level with its MaxSim operation, ideal for **question-answering and document retrieval**.
+- **Developed by:** raialvaro
+- **License:** apache-2.0