nicolauduran45/multilingual_research_pairs
Viewer • Updated • 76.4k • 28
How to use nicolauduran45/mRoBERTA_retrieval-scientific_domain with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("nicolauduran45/mRoBERTA_retrieval-scientific_domain")
sentences = [
"Just-in-Time defect prediction",
"Programación diferencial de QoS de URLLC bajo la disciplina de servicio FIFO: un enfoque entre capas",
"La predicció de defectes just-in-time ( JITDP ) és una tècnica per predir si un canvi de codi és defectuós . JITDP garanteix la qualitat del programari durant tota la fase de disseny i requereix que els desenvolupadors comprovin i resolguin els defectes a temps . Diversos estudis recents han proposat utilitzar JITDP per detectar canvis que puguin crear defectes a l'hora de registrar-se . Les tècniques JITDP utilitzen mètriques de canvi obtingudes dels dipòsits de programari per preveure canvis que indueixen defectes . En aquesta investigació , vam presentar l'agregació Bootstrap per detectar canvis que poden generar defectes en el moment de la facturació mitjançant l'ús del conjunt de dades de mètriques de canvi accessible públicament Mozilla . El mètode proposat s'ha comparat amb diverses tècniques d'aprenentatge automàtic per verificar el rendiment de l'enfocament proposat . Les troballes revelen que l'enfocament proposat va superar tots els mètodes d'aprenentatge automàtic comparables en diverses mesures de classificació . A més de l'enfocament proposat , l'arbre de decisió i els algorismes k del veí més proper van funcionar bé .",
"Sobre algunas relaciones entre varios modelos DEA convexos generalizados"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from langtech-innovation/mRoBERTA_retrieval. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'RobertaModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("nicolauduran45/mRoBERTA_retrieval-scientific_domain")
# Run inference
queries = [
"Llegums",
]
documents = [
"La salinitat , un factor d'estrès abiòtic , té efectes negatius en els cigrons . El CO 2 , els àcids orgànics i els minerals derivats del Ca s'utilitzen per reduir els efectes de la salinitat . D'aquesta manera s'inicia el mecanisme d'acceptació de la sal . Per eliminar aquests efectes negatius , en aquest estudi , es van aplicar reguladors del creixement de les plantes ( àcid salicílic [ SA ] i àcid giberèl·lic [ GA 3 ] ) i CaCl 2 en dosis baixes a genotips de cigrons exposats a diferents dosis d'estrès salí de NaCl . La investigació es va establir en hivernacles de la Universitat de Ciències Aplicades d'Isparta , Facultat d'Agricultura , Cultius de Camp , l'any 2021 , segons parcel·les completament aleatòries dividides en un disseny d'assaig dividit amb tres rèpliques . Les aplicacions inhibidores aplicades a genotips sota estrès salí van tenir un efecte positiu en els trets examinats en comparació amb els controls . Entre aquestes aplicacions d'inhibidors , es va determinar GA 3 com la més eficaç , seguida de SA i CaCl 2 . En general , amb un augment de la dosi de sal , totes les propietats van disminuir excepte el temps mitjà de germinació i el contingut de prolina . Entre els genotips , es va trobar que Isık-05 era superior pel que fa a les característiques de plàntula i germinació sota estrès salí , mentre que İspanyol era més sensible . Com a resultat , es va predir que les plantes de cigrons sota estrès de sal podrien alleujar-se donant nivells baixos de GA 3 a l'aigua de reg per millorar l'emergència i el desenvolupament .",
"L'anàlisi d'enriquiment de l'ontologia gènica en dues mostres familiars independents posa de manifest els processos biològicament plausibles per als trastorns de l'espectre autista Estudis recents d'associació a tot el genoma ( GWAS ) han implicat una sèrie de gens de vies biològiques discretes en l'etiologia de l'autisme . Tanmateix , malgrat la forta influència dels factors genètics , els estudis d'associació encara han d'identificar gens o SNP d'efectes principals replicats estadísticament robusts . Apliquem el principi de la metodologia de prova de la relació SNP descrita per O'Dushlaine et al. , ( 2009 ) a més de 2100 famílies del Projecte del genoma de l'autisme ( AGP ) . Mitjançant un disseny en dues etapes , examinem l'enriquiment de l'associació en 5955 classificacions úniques d'ontologia genètica en quatre agrupacions basades en dues classificacions fenotípiques i dues ancestrals . A partir de les estimacions de la simulació , identifiquem l'excés d'enriquiment de l'associació en totes les anàlisis . Observem l'enriquiment en associació de conjunts de gens implicats en diversos processos biològics , com ara el metabolisme del piruvat , l'activació del factor de transcripció , la senyalització cel·lular i la regulació del cicle cel·lular . Tant els gens com els processos que mostren enriquiment s'han examinat prèviament en trastorns autistes i ofereixen plausibilitat biològica a aquestes troballes .",
'La baixada de microRNA-9 redueix la resposta inflamatòria i la proliferació de fibroblasts en ratolins amb fibrosi pulmonar idiopàtica a través de la via TGF-β-Smad3 mediada per ANO1.',
]
query_embeddings = model.encode_query(queries)
document_embeddings = model.encode_document(documents)
print(query_embeddings.shape, document_embeddings.shape)
# [1, 768] [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(query_embeddings, document_embeddings)
print(similarities)
# tensor([[0.0798, 0.0008, 0.0187]])
mRoBERTA_retrieval-evalTripletEvaluator| Metric | Value |
|---|---|
| cosine_accuracy | 0.9517 |
query and text| query | text | |
|---|---|---|
| type | string | string |
| details |
|
|
| query | text |
|---|---|
Base de dades espacial |
MEDIS —Una base de datos espacial completa sobre las islas mediterráneas para la investigación biogeográfica y evolutiva Motivación Las características intrínsecas de las islas las convierten en un sistema de estudio único para la investigación de la dinámica ecológica y evolutiva . La cuenca mediterránea , un punto caliente de biodiversidad rico en islas , aún carece de una base de datos espacial completa para estas características geográficas . Este estudio presenta la primera base de datos espacial completa de todas las islas mediterráneas mayores de 0,01 km 2 , ayudando a las investigaciones ecológicas y la investigación interdisciplinaria . Principales tipos de variable contenida La base de datos espacial MEDIS ofrece información detallada sobre 39 variables geográficas , climáticas , ecológicas y de uso del suelo , incluyendo el área de la isla , el perímetro , las métricas de aislamiento , el espacio climático , los datos del terreno , la cobertura del suelo , la paleogeografía ... |
treatment |
Les persones amb trastorn de l'espectre autista ( TEA ) tenen un major risc de patir una o més condicions psiquiàtriques concomitants . Quan estan presents , aquestes condicions s'associen a deteriorament i angoixa addicionals . Per tant , és crucial que els metges i els investigadors comprenguin i abordin adequadament aquests reptes . Tanmateix , a causa de la superposició de símptomes , l'eclipsi diagnòstic i la presentació ambigua dels símptomes en el TEA , l'avaluació de les condicions concomitants en el TEA és complexa i desafiant . De la mateixa manera , els factors de diferència individual , com l'edat , el funcionament intel·lectual i el gènere , poden influir en la presentació de símptomes concomitants . En relació , un marc transdiagnòstic pot oferir utilitat per avaluar i tractar les condicions concomitants . Tanmateix , amb l'excepció dels trastorns d'ansietat , la investigació sobre el tractament de les condicions psiquiàtriques concomitants en el TEA és relativament limit... |
CSI |
Ergodic Secrecy Capacity Analysis Over Composite Weibull/Inverse Gamma Fading Channel In this work , the secrecy performance of traditional Wyner ’ s model over more realistic composite wireless fading channel , i.e. , Weibull/Inverse Gamma , is investigated . The closed-form expression of average ergodic secrecy capacity is developed in terms of Fox ’ s H-function . The efficacy of the proposed solution is validated through Monte–Carlo simulation . Moreover , the importance of channel state information of eavesdropper and the multipath parameter in compensating the secrecy concern at the physical layer is comprehensively discussed . |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false
}
query, text, and neg_text| query | text | neg_text | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| query | text | neg_text |
|---|---|---|
Commemoració |
Simon Perego, Pleurons-les. Les Juifs de Paris et la commémoration de la Shoah (1944-1967) (Ceyzérieu, Champ Vallon, 2020) |
Problemes d'equilibri de poblacions inverses: heurístiques per a l'agregació/ruptura de cúmuls sòlids en metalls líquids |
Tumor cartilaginós |
( La condrometaplàsia de la laringe és una malaltia poc freqüent . Informem d'un cas presentat al servei d'otorinolaringologia del nostre institut l'any 2015 . ) PRESENTACIÓ DEL CAS : Home de 62 anys sense antecedents de trauma presentat amb disfonia progressiva , dispnea , sense cap disfàgia . Un examen laringoscòpic de fibra òptica va revelar una massa nodular sorgida a la unió de 1/3 anterior i 2/3 posterior de la corda vocal esquerra . Una tomografia computeritzada de la regió del coll va mostrar una massa arrodonida i circumscrita sense infiltració dels teixits circumdants . La investigació histològica de la lesió va revelar la presència de teixit cartilaginós fibroelàstic , envoltat per una vora fina de teixit fibrós , amb àrees hipercel·lulars rares , cèl·lules binucleades ocasionals , hipercromàsia lleu i un perfil nuclear irregular . No hi havia activitat mitòtica . El pacient no tenia antecedents de traumatisme laringi . L'aparició subaguda i progressiva dels símptomes clínic... |
The release of sexual conflict after sex loss is associated with evolutionary changes in gene expression |
Mutation |
Importance of host cell arginine uptake in Francisella phagosomal escape and ribosomal protein amounts Upon entry into mammalian host cells , the pathogenic bacterium Francisella must import host cell arginine to multiply actively in the host cytoplasm . We identified and functionally characterized an arginine transporter ( hereafter designated ArgP ) whose inactivation considerably delayed bacterial phagosomal escape and intracellular multiplication . Intramacrophagic growth of the ΔargP mutant was fully restored upon supplementation of the growth medium with excess arginine , in both F. tularensis subsp . novicida and F. tularensis subsp . holarctica LVS , demonstrating the importance of arginine acquisition in these two subspecies . High-resolution mass spectrometry revealed that arginine limitation reduced the amount of most of the ribosomal proteins in the ΔargP mutant . In response to stresses such as nutritional limitation , repression of ribosomal protein synthesis has been obs... |
La decoració esculpida de les lloses del presbiteri de l'església de Santa Maria Assunta d'Aquileia representa un univers harmoniós que canalitza la matèria en procés de transformació , com l'espiritualització del caro a través dels sagraments . Els diferents elements que formen aquest univers s'uneixen entre si per emfatitzar la coherència de la Creació . En aquest espai construït , els límits entre planta , mineral , animal i ornamental es dissolen i es fonen , igual que la distinció entre animals coneguts i imaginaris . En una de les lloses del presbiteri s'hi representen dues criatures amb característiques d'espècies animals terrestres , celestes i aquàtiques . Beuen de la Font-Arbre de la Vida , fent un enllaç entre l'aquí sota i el més enllà i aportant esperança de salvació . Enfrontades , s'oposen per entorpir el pas dels fidels , reforçant la funció separadora del presbiteri , marcant la frontera entre la nau i el cor , entre els laics i els clergues . Presentats sobre un supor... |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim",
"gather_across_devices": false
}
eval_strategy: stepsper_device_train_batch_size: 32per_device_eval_batch_size: 32learning_rate: 2e-05warmup_ratio: 0.1fp16: Trueload_best_model_at_end: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 32per_device_eval_batch_size: 32per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 3max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | Validation Loss | mRoBERTA_retrieval-eval_cosine_accuracy |
|---|---|---|---|---|
| 0.0524 | 100 | 2.4337 | - | - |
| 0.1048 | 200 | 2.0811 | - | - |
| 0.1572 | 300 | 1.7428 | - | - |
| 0.2095 | 400 | 1.6934 | - | - |
| 0.2619 | 500 | 1.6396 | - | 0.9237 |
| -1 | -1 | - | - | 0.9237 |
| 0.2619 | 500 | - | 1.9230 | - |
| 0.3143 | 600 | 1.5936 | - | - |
| 0.3667 | 700 | 1.5836 | - | - |
| 0.4191 | 800 | 1.5668 | - | - |
| 0.4715 | 900 | 1.4878 | - | - |
| 0.5238 | 1000 | 1.4752 | - | 0.9327 |
| -1 | -1 | - | - | 0.9327 |
| 0.5238 | 1000 | - | 1.7688 | - |
| 0.5762 | 1100 | 1.4235 | - | - |
| 0.6286 | 1200 | 1.4699 | - | - |
| 0.6810 | 1300 | 1.4307 | - | - |
| 0.7334 | 1400 | 1.4336 | - | - |
| 0.7858 | 1500 | 1.3656 | - | 0.9395 |
| -1 | -1 | - | - | 0.9395 |
| 0.7858 | 1500 | - | 1.6827 | - |
| 0.8381 | 1600 | 1.3756 | - | - |
| 0.8905 | 1700 | 1.3727 | - | - |
| 0.9429 | 1800 | 1.3891 | - | - |
| 0.9953 | 1900 | 1.3692 | - | - |
| 1.0477 | 2000 | 1.1712 | - | 0.9387 |
| -1 | -1 | - | - | 0.9387 |
| 1.0477 | 2000 | - | 1.6457 | - |
| 1.1001 | 2100 | 1.1501 | - | - |
| 1.1524 | 2200 | 1.1047 | - | - |
| 1.2048 | 2300 | 1.1881 | - | - |
| 1.2572 | 2400 | 1.1363 | - | - |
| 1.3096 | 2500 | 1.1312 | - | 0.9442 |
| -1 | -1 | - | - | 0.9442 |
| 1.3096 | 2500 | - | 1.6169 | - |
| 1.3620 | 2600 | 1.1604 | - | - |
| 1.4144 | 2700 | 1.1235 | - | - |
| 1.4667 | 2800 | 1.1338 | - | - |
| 1.5191 | 2900 | 1.1085 | - | - |
| 1.5715 | 3000 | 1.0904 | - | 0.9464 |
| -1 | -1 | - | - | 0.9464 |
| 1.5715 | 3000 | - | 1.5949 | - |
| 1.6239 | 3100 | 1.1186 | - | - |
| 1.6763 | 3200 | 1.1282 | - | - |
| 1.7287 | 3300 | 1.0999 | - | - |
| 1.7810 | 3400 | 1.0953 | - | - |
| 1.8334 | 3500 | 1.0732 | - | 0.9470 |
| -1 | -1 | - | - | 0.9470 |
| 1.8334 | 3500 | - | 1.5622 | - |
| 1.8858 | 3600 | 1.0556 | - | - |
| 1.9382 | 3700 | 1.0829 | - | - |
| 1.9906 | 3800 | 1.0777 | - | - |
| 2.0430 | 3900 | 0.9616 | - | - |
| 2.0953 | 4000 | 0.9176 | - | 0.9507 |
| -1 | -1 | - | - | 0.9507 |
| 2.0953 | 4000 | - | 1.5553 | - |
| 2.1477 | 4100 | 0.8813 | - | - |
| 2.2001 | 4200 | 0.9 | - | - |
| 2.2525 | 4300 | 0.9044 | - | - |
| 2.3049 | 4400 | 0.9249 | - | - |
| 2.3573 | 4500 | 0.8944 | - | 0.9503 |
| -1 | -1 | - | - | 0.9503 |
| 2.3573 | 4500 | - | 1.5397 | - |
| 2.4096 | 4600 | 0.8909 | - | - |
| 2.4620 | 4700 | 0.9085 | - | - |
| 2.5144 | 4800 | 0.873 | - | - |
| 2.5668 | 4900 | 0.8816 | - | - |
| 2.6192 | 5000 | 0.8927 | - | 0.9512 |
| -1 | -1 | - | - | 0.9512 |
| 2.6192 | 5000 | - | 1.5292 | - |
| 2.6716 | 5100 | 0.9222 | - | - |
| 2.7239 | 5200 | 0.9022 | - | - |
| 2.7763 | 5300 | 0.9096 | - | - |
| 2.8287 | 5400 | 0.8729 | - | - |
| 2.8811 | 5500 | 0.8641 | - | 0.9517 |
| -1 | -1 | - | - | 0.9517 |
| 2.8811 | 5500 | - | 1.5246 | - |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
BSC-LT/mRoBERTa