SentenceTransformer based on jangedoo/all-MiniLM-L6-v3-nepali

This is a sentence-transformers model finetuned from jangedoo/all-MiniLM-L6-v3-nepali on the indic_rag_ne, textbook_qa_context, textbook_qa_rephrased, yunika_nepali_qa and nepal_legal_rag_qa datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("jangedoo/all-MiniLM-L6-v3-nepali-rag")
# Run inference
sentences = [
    'देवानी संहिताका केही सामान्य सिद्धान्तहरू के-के हुन्? यस संहिताले कसरी नेपालको कानुनी व्यवस्था कायम राख्न मदत गर्छ?',
    'ओसारपसारसम्बन्धी कसुर ० अंश, अपुताली, दान, बकस, संरक्षक, | ० नागरिकतासम्बन्धी कसुर माथवर, मातृक तथा पैतृक अख्तियारी, » लाग औपधसम्वन्धी कसर धर्म पुत्र वा धर्म पुत्री 1 घत टमा ० सवारी साधनल गर्न दु! कसुर ० कुनै करार, अर्ध करार, अनुचित त समद्िअन्तर्गतको कनै हक वा दावी ० राष्ट्रिय तथा सार्वजनिक सम्पदा विरुद्धको कसुर « दुष्कृति, अर्ध दुष्कृति वा त्रुटिपूर्ण ” करणीसम्बन्धी कसुर उत्पादनसम्बन्धी हक वा दावी ० चोरी, डाँका, लुटपिट, ठगी, नाप तौलसम्बन्धी ० सुविधाभार, क्षतिपूर्ति र देवानी प्रकृतिको सुर अन्य कुनै विषय ० गोपनीयता र गाली बेइज्जतिसम्बन्धी कसुर ० अपराध संहिता २०७४ को भाग रर ३ मा उल्लिखित सबै अपराधसम्बन्धी कसुरहरू १. मुलुकी देवानी संहिता मुलुकी देवानी संहितामा उल्लेख भएअनुसार मुलुकमा कानुन र व्यवस्था कायम गर्न यो संहिता बनेको हो । यसले सर्वसाधारणको नैतिकता, शिष्टाचार, सदाचार र सुविधा एवम् आर्थिक हित कायम राख्न मदत गर्छ | आर्थिक, सामाजिक र सांस्कृतिक क्षेत्रमा न्यायपूर्ण व्यवस्था कायम गर्न सहयोग गर्छ | विभिन्न जात, जाति वा सम्प्रदायबिचको सुसम्बन्ध कायम राख्नका लागि पनि यसले मार्गदर्शन गर्छ । ३. देवानी संहितामा भएका केही कानुनी प्रावधान देवानी संहिताको सामान्य सिद्धान्त कानुनको अज्ञानता क्षम्य हुने छैन । कानुन सबैले जानेको अनुमान गरिने छ । कसैले पनि सार्वजनिक हित विपरीत हुने गरी कुनै काम कारबाही गर्न पाउने छैन । कानुन विपरीतको काम अमान्य हुने छ । सामाजिक अध्ययन तथा जीवनोपयोगी शिक्षा, कक्षा १२ कुनै काम गर्दा वा गराउँदा कसैको गल्तीले अरूलाई हानि, नोक्सानी हुन गएमा त्यसरी हानि, नोक्सानी भएको क्षतिको दायित्व त्यस्तो गल्ती गर्ने वा गराउने व्यक्तिले व्यहोर्नुपर्ने छ । प्रत्येक व्यक्तिले आफूले गरेको गलत कार्यको परिणाम आफैँले व्यहोर्नुपर्ने छ | कसैले पनि अन्य व्यक्तिलाई दुःख दिने, हैरानी हुने वा निजको इज्जत, प्रतिष्ठा वा सम्पत्तिमा क्षति पुग्ने गरी कुनै काम गर्न वा गराउन हुँदैन । कसैले पनि आफूले गरेको गल्तीबाट भएको फाइदा लिन पाउने छैन । आफ्नो संरक्षकत्व, माथवरी, अधीन वा प्रभावमा रहेको वा प्रभाव पर्न सक्ने व्यक्तिको हितविपरीत गरिएको काम अमान्य हुने छ। प्रत्येक व्यक्तिले अन्य व्यक्तिको व्यक्तित्वलाई स्वीकार गर्नुपर्ने छ । प्रत्येक व्यक्तिले आफू रहे बसेको ठाउँको समुदाय वा छिमेकीलाई हानिनोक्सानी नहुने गरी असल छिमेकीपन कायम गर्नुपर्ने छ । कुनै व्यक्ति उपर फौजदारी कसुरमा मात्र कारबाही चलाएको वा नचलाएको आधारमा त्यस्तो व्यक्तिले कानुनबमोजिमको देवानी दायित्वबाट छुटकारा पाउने छैन । कानुन विपरीतका प्रथा वा परम्परालाई न्यायको रोहवरमा मान्यता दिइने छैन । विषय, प्रसङ्ग वा प्रकृतिले कुनै कानुनी व्यवस्था नेपाली नागरिकलाई मात्र लागु हुने अवस्थामा बाहेक यो संहिता वा देवानी कानुनसम्बन्धी अन्य प्रावधान विदेशीको हकमा पनि समान रूपमा लागु हुने छ। यस देवानी संहिताको भाग २ मा व्यक्तिसम्बन्धी कानुन, भाग ३ मा पारिवारिक कानुन, भाग ४ मा सम्पत्तिसम्बन्धी कानुन, भाग ५ मा करार तथा दायित्वसम्बन्धी कानुन र भाग ६ मा निजी अन्तर्राट्रिय कानुनसम्बन्धी कानुनी व्यवस्था रहेको छ । यी कानुनका केही अंशहरू यसप्रकार रहेका छन् : बिस वर्ष उमेर पुगेपछि मात्र विवाह गर्न पाइने छ । पुरुष र महिला दुवैको मन्जुरी बिना भएको विवाह बदर हुने छ । हाडनाता करणीमा सजाय हुने नाताका व्यक्तिबिच भएको विवाह बदर हुन्छ। कुनै पुरुषसँगको सम्पर्कबाट महिलाले गर्भधारण गरी शिशु जन्मिएको प्रमाणित भएमा त्यस्तो पुरुष र महिलाबिच स्वतः विवाह भएको मानिने छ । तर बहु विवाह भएको, जबरजस्ती करणी भएको, उमेर नपुगी',
    'कहरवा/ख्याली (२/४) यस गीतमा कहरवा तालको प्रयोग चौगुन लयमा गरिएको हुनाले १ मात्रा बजाउदा वा बोल्दा लाग्ने समय अवधि भित्र ४ मात्रालाई एक साथ लिएर बजाउन अथवा बोल्नु पर्ने हुन्छ । यसका लागि तबला वा मादलका एक भन्दा बढी बोल समूहलाई स्वरलिपिमा लेख्दा अर्ध चन्द्रकार भित्र राख्ने गरिन्छ | उदाहरणका लागि (धा 5 धागेनति) । यसमा धा बोल्दा लाग्ने समय र धागेनति बोल्दा वा बजाउदा लाग्ने समय समान हुनु पर्दछ | यसलाई तल उल्लेख गरिएअनुसार गीतको साथमा अभ्यास गर्नुहोस् । | मात्रा । १ २ 3 ४ ५ ६ ७ 5 न का थि जा मादलको घिं - ना ती फत् घिं fe ताङ बोल ant नति नक धिना धागे नति नक घिना धागे नति नक धिना धागे नति नक far बोल घिंश्नाती फतृधिंघिताङ घिंडनाती फतृघिंधिताङ | घिंश्नाती फतृधिंघिताङ घिं$नाती फतृघिंधिताङ बोल _ _— — _ _— — 0 स्वरलिपि — कक्षागत गीत - हत्केलामा माटो राखौँ [स्वर | पन म ग रे - - न म - ग रे सा - - न यसरी नै बाँकी गीतका हरफहरुलाई पनि स्वरलिपिमा मिलाएर गाउदै जानुहोस् । स्वास्थ्य, शारीरिक तथा तिर्जवात्मक कला कक्षा ७ RR (ख) स्थानीय गीत र स्वदेश गान (Local and Petrotic Song) (अ) मालाश्री गीत/ धुन (Malashree Song/Tune) तपाईंहरूले मालाश्री गीत/धुनलाई रेडियो, टेलिभिजन सुन्नु भएको छ होला | यो गीत/धुन विशेष गरी शरद क्रतुको सुरुवातसँगै नेपालीहरूको महान चाड बडादसैँको नवरात्रिको बे लामा गाउने बजाउने गरिन्छ । यसमा देवी भैरवीको स्तुति र वर्णन गरिएको छ 1 तल मालाश्री गीत र त्यसको स्वरलिपि दिइएको छ | स्वरलिपिलाई हेरेर मात्रालाई ख्याल गदैं तबलाको बोलमा बजाउँदै गाउने अश्यास गर्नुहोस् : स्केल Cm ताल - कहरवा/ख्याली ताल/(२/४) यस गीतमा पनि कहरवा तालको प्रयोग चौगुन लयमा गरिएको हुनाले १ मात्रा बजाउँदा वा बोल्दा लाग्ने समय अवधिभित्र ४ मात्रालाई एक साथ लिएर बजाउन अथवा बोल्नुपर्ने हुन्छ । यसका लागि तबला वा मादलका एकभन्दा बढी बोल समूहलाई स्वरलिपिमा लेख्दा अर्ध चन्द्रकार fea राख्ने गरिन्छ, जस्तै उदाहरणका लागि (धा = anata) | यसमा धा बोल्दा लाग्ने समय र धागेनति, बोल्दा वा बजाउँदा लाग्ने ———_L__—"” LD मात्रा १ रे 3 v 4 ६ ७ ० न क घि नता मादलको घिं - ना ती फत् fa fa ताङ बोल ant नति नक धिना धागे नति नक धिना | धागे नति नक धिना धागे नति नक far घिंड्नाती फतृधिंघिताङ घिं$ नाती फतृषिंधिताङ | घिं$नाती फतृघिंघिताङ घिं$नाती फतृषिंधिताङ 0 Re स्वास्थ्य, शारीरिक तथा तिर्जवात्मक कला कक्षा ७ स्वरलिपि - मालाश्री गीत/धुन we | -पप॒पसाँ la fm a प - a wy म ग रेसा [जय | = [=e मम । [जय | समय समान हुनुपर्छ | यसलाई तल उल्लेख गरिएअनुसार गीतको साथमा अभ्यास गर्नुहोस् | जय देवी भैरवी गोरखनाथ, दर्शन दे भवानी हे प्रथम देवी उत्पन्न भई हे, जन्म लिए कैलास हे आउ देवी पाउ छमछम, चौसटठी योगिनी साथ हे (आ) गीत : असारे महिनामा कियाकलाप १२.६ तल एउटा गीत र त्यसको स्वरलिपि दिइएको छ । स्वरलिपिलाई हेरेर मात्रालाई ख्याल गर्दै कहरवा वा सेलो तालमा बजाउँदै गाउने अभ्यास गर्नुहोस् । असारै महिनामा, पानी पस्यो रुझाउने । एक्लो यो मेरो मन, कसरी बुझाउने । भन्थिन है मैच्याङले, रुदै धरर । नौ डाँडा',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Information Retrieval

Metric indic_rag_ne textbook_qa_nepali yunika_nepali_qa nepal_legal_rag_qa
cosine_accuracy@10 0.5978 0.7055 0.9302 0.8252
cosine_precision@10 0.0598 0.0706 0.093 0.0825
cosine_precision@50 0.0143 0.0165 0.02 0.0185
cosine_recall@10 0.5978 0.7055 0.9302 0.8252
cosine_recall@50 0.7136 0.8233 1.0 0.9231
cosine_ndcg@10 0.473 0.5678 0.7866 0.6677
cosine_mrr@10 0.4331 0.5249 0.7395 0.6168
cosine_map@100 0.4393 0.531 0.7427 0.6223

Training Details

Training Datasets

indic_rag_ne

indic_rag_ne

  • Dataset: indic_rag_ne at 72117d4
  • Size: 50,000 training samples
  • Columns: query and document
  • Approximate statistics based on the first 1000 samples:
    query document
    type string string
    details
    • min: 6 tokens
    • mean: 38.33 tokens
    • max: 112 tokens
    • min: 3 tokens
    • mean: 119.86 tokens
    • max: 256 tokens
  • Samples:
    query document
    मधुपर्क मासिकको कुन मासिक अंकमा सम्पादक श्रीओम श्रेष्ठ हुन्? २६. २०७३ फागुन सम्पादक श्रीओम श्रेष्ठ
    इम्प्याक्ट रेस्लिङको मूल कम्पनीलाई कुन कम्पनीद्वारा खरीद गरिएको थियो? यसको स्थापनादेखि नै यो संयुक्त राज्य अमेरिकामा डब्ल्युडब्ल्युई पछिको सबैभन्दा ठूलो कुस्ती प्रवर्द्धक कम्पनी बनेको छ। सन् २०१४ मा स्पाइकसँग अमेरिकी टेलिभिजन सम्झौता गुमाउनुका साथै मौद्रिक तथा कर्मचारीहरूको मुद्दाको कारणले गर्दा सन् २०१७ मा लामो समयदेखि प्रतिद्वन्द्वी रिङ अफ अनर नामक अर्को कुस्ती प्रवर्द्धक कम्पनी भन्दा पछाडि परेको जनाइएको थियो। सन् २०१९ देखि, स्थायी अन्तर्राष्ट्रिय टेलिभिजन वितरण र यसको मूल कम्पनीलाई एएक्सएस टिभीद्वारा खरीद गरिएको थियो जसले पछि इम्प्याक्टको सम्पूर्ण कार्यक्रमहरू प्रशारण गर्न सुरु गरेको थियो।
    सुरिनाम देशलाई कति प्रशासनिक जिल्लामा विभाजन गरिएको छ? देशलाई दश प्रशासनिक जिल्लामा विभाजन गरिएको छ, प्रत्येकको अध्यक्षतामा राष्ट्रपतिद्वारा नियुक्त जिल्ला आयुक्त, जसलाई बर्खास्त गर्ने अधिकार पनि छ। सुरिनाम थप ६२ रिसोर्ट मा विभाजित छ।
  • Loss: CachedMultipleNegativesSymmetricRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 32
    }
    
textbook_qa_context

textbook_qa_context

  • Dataset: textbook_qa_context at 3a8ad3a
  • Size: 4,160 training samples
  • Columns: query and document
  • Approximate statistics based on the first 1000 samples:
    query document
    type string string
    details
    • min: 14 tokens
    • mean: 70.75 tokens
    • max: 256 tokens
    • min: 87 tokens
    • mean: 255.72 tokens
    • max: 256 tokens
  • Samples:
    query document
    वाच्य परिवर्तनका नियमहरूको प्रयोग गरी दिदीले आमाबुबालाई स्पष्ट शब्दमा भनेभने वाक्यलाई कर्मवाच्यमा रूपान्तरण गर्नुहोस्। रूपमा सबैले सम्मान गर्नु ....। १५. दिइएको सन्दर्भ पढ्नुहोस् र निर्देशनअनुसार गर्नुहोस् : दिदीले १२ कक्षा पूरा गरेपश्चात् आमाबुबाले उहाँको विवाह गरिदिने विचार गरिदिनुभयो । दिदीले तत्काल विवाह गर्न अनिच्छा जनाउनुभयो । उहाँले उच्च शिक्षा हासिल गरी शिक्षक बन्ने लक्ष्य लिनुभएको रहेछ । आमाबुबाले चाहिँ उहाँलाई उच्च शिक्षा अध्ययन गर्न अनिच्छा देखाउनुभयो । दिदीले प्रस्टसँग आमाबुबालाई भन्नुभयो, “हजुरहरूले जतिसुकै करकाप गरे पनि अहिले मेरो विवाह गर्ने विचार छैन । विवाहमा लाग्ने रकम मेरो उच्च शिक्षाका लागि लगानी गरिदिनुहोस् ।” दिदीको कुरामा आमाबुबा सहमत हुनुभयो । छेउमा बसेर उहाँहरूका कुराकानी सुनिरहेका राजनले सोचे, “असल भविष्य निर्माणका लागि आफूले सोचेको क्षेत्रमा अगाडि बढ्न कसैले रोक्न नहुने रहेछ
    सेल र विद्युतीय परिपथ सम्बन्धी प्रश्न

    1. सेलले कुन प्रकारको ऊर्जालाई विद्युतीय ऊर्जामा रूपान्तरण गर्छ ?

    2. साधारण सेल (Simple Cell) ले कति समयसम्म विद्युतीय ऊर्जा उत्पादन गर्न सक्छ र यसलाई एक ठाउँबाट अर्को ठाउँमा लैजान के सजिलो छ ?

    3. विद्युतीय परिपथमा कुन कुन तत्वहरू हुनु पर्छ र यसलाई कसरी बनाइन्छ ?

    4. विद्युतीय स्रोत, सुचालक तार र लोड भनेका के हुन् र यिनीहरूका केही उदाहरणहरू के के हुन् ?
    तपाईंले टर्चलाइट, रेडियो आदिमा सेल प्रयोण गरेको देख्नुभरुको छ ? यसले कसरी काम गर्छ होला, छलफल गर्नुहोस् । सेलले रासायनिक शक्तिलाई विद्युत् शक्तिमा रूपान्तरण गर्छ । उक्त विद्युत् शक्तिलाई उपकरणको सहायतामा प्रकाश, ताप, ध्वनि आदि शक्तिमा रूपान्तरण गरिन्छ
    सिमसार पारिस्थितिक प्रणालीले कुन कुन प्रकारका जीवजन्तुलाई वासस्थान प्रदान गर्दछ र यसले कसरी जल परिचालन र शुद्धीकरण प्रक्रिया निरन्तर चलिरहने गर्दछ ? सेफोक्सुन्डो ताल क्षेत्रमा कुट्की, भ्याकुर, विष, जटामसी, लघुपत्र र हिमाली साग जस्ता वनस्पति तथा पंक्षीमा सुनजुरे हाँस, चखेवा चखेवी, बगाले सिमकुखुरा, मरुल, सिन्दुरे हाँस र खोयाँ हाँस जस्ता जनावरहरू पाइन्छन्
  • Loss: CachedMultipleNegativesSymmetricRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 32
    }
    
textbook_qa_rephrased

textbook_qa_rephrased

  • Dataset: textbook_qa_rephrased at 3a8ad3a
  • Size: 4,160 training samples
  • Columns: query and document
  • Approximate statistics based on the first 1000 samples:
    query document
    type string string
    details
    • min: 14 tokens
    • mean: 70.75 tokens
    • max: 256 tokens
    • min: 180 tokens
    • mean: 255.81 tokens
    • max: 256 tokens
  • Samples:
    query document
    वाच्य परिवर्तनका नियमहरूको प्रयोग गरी दिदीले आमाबुबालाई स्पष्ट शब्दमा भनेभने वाक्यलाई कर्मवाच्यमा रूपान्तरण गर्नुहोस्। दिदीले १२ कक्षा पूरा गरेपछि आमाबुबाले उनको विवाह गरिदिने विचार गरे। तर दिदीले विवाह गर्न अनिच्छुक भइन् किनभने उनले उच्च शिक्षा हासिल गरेर शिक्षक बन्ने लक्ष्य राखेकी थिइन्। आमाबुबाले भने उनको उच्च शिक्षा अध्ययनमा अनिच्छा देखाए। दिदीले आमाबुबालाई स्पष्ट शब्दमा भनिन्, "तपाईंहरूले जतिसुकै करकाप गरे पनि अहिले मेरो विवाह गर्ने इच्छा छैन। विवाहमा लाग्ने रकम मेरो उच्च शिक्षाका लागि लगानी गरिदिनुहोस्।" दिदीको कुरामा आमाबुबा सहमत भए।

    यसपछि वाच्य परिवर्तनका नियमहरू दिइएका छन्। कर्तुवाच्यलाई कर्मवाच्यमा परिवर्तन गर्दा कर्तामा 'द्वारा/बाट' विभक्ति थपिन्छ, धातुमा 'ई' प्रत्यय थपेर कर्मअनुसारको लिङ्ग, वचन, पुरुष, आदर मिल्ने प्रत्यय लगाई क्रियापद बनाइन्छ। कर्ममा 'लाई' विभक्ति लागेको छ भने त्यसलाई हटाइन्छ। आज्ञार्थ वा इच्छार्थ वाक्यमा भने कर्म एकवचनमा भए धातुमा 'इयोस्' र बहुवचनमा भए 'इयुन्' प्रत्यय जोडेर क्रियापद बनाइन्छ। क्रियाको काल, पक्ष, भाव, करण, अकरण आदि परिवर्तन गर्न नहुनेछ।

    कर्तुवाच्यलाई भाववाच्यमा परिवर्तन गर्दा पनि 'म' सर्वनामलाई 'अ' बनाइन्छ, धातुमा 'इ' प्रत्यय थपेर पुलिङ्ग, एकवचन, तृतीय पुर...
    सेल र विद्युतीय परिपथ सम्बन्धी प्रश्न

    1. सेलले कुन प्रकारको ऊर्जालाई विद्युतीय ऊर्जामा रूपान्तरण गर्छ ?

    2. साधारण सेल (Simple Cell) ले कति समयसम्म विद्युतीय ऊर्जा उत्पादन गर्न सक्छ र यसलाई एक ठाउँबाट अर्को ठाउँमा लैजान के सजिलो छ ?

    3. विद्युतीय परिपथमा कुन कुन तत्वहरू हुनु पर्छ र यसलाई कसरी बनाइन्छ ?

    4. विद्युतीय स्रोत, सुचालक तार र लोड भनेका के हुन् र यिनीहरूका केही उदाहरणहरू के के हुन् ?
    सेलहरू र विद्युतीय परिपथ

    सेलहरू रासायनिक ऊर्जालाई विद्युतीय ऊर्जामा रूपान्तरण गर्छन्। त्यसपछि त्यस विद्युतीय ऊर्जालाई प्रकाश, ताप, ध्वनि आदि ऊर्जामा रूपान्तरण गर्न सकिन्छ। साधारण सेल (Simple Cell) ले पनि विद्युतीय ऊर्जा उत्पादन गर्छ तर यसले धेरै विद्युतीय ऊर्जा उत्पादन गर्न सक्दैन र लामो समयसम्म प्रयोग गर्न पनि सकिदैन। साधारण सेलमा सल्फ्युरिक अम्ल (sulphuric acid) प्रयोग हुने भएकोले यसलाई सजिलैसँग एक ठाउँबाट अर्को ठाउँमा लैजान सकिन्छ।

    विद्युतीय परिपथ भनेको विद्युतीय प्रवाह हुने मार्ग हो। यसमा विद्युतीय स्रोत (सेल), सुचालक तार र लोड (बलब) हुनु पर्छ। विद्युतीय स्रोत, सुचालक तार र लोडलाई जोडेर बनाइएको विद्युतीय प्रवाह हुने नियमित मार्गलाई विद्युतीय परिपथ भनिन्छ। ड्राई सेल, फोटोसेल, डाइनामो, जेनेरेटर आदि विद्युतीय स्रोत हुन् भने बत्ती, हिटर, पंखा, रेडियो, टेलिभिजन आदि विद्युतीय उपकरणहरू हुन् जसलाई लोड पनि भनिन्छ।

    सेल र विद्युतीय परिपथको प्रयोगबाट विद्युतीय ऊर्जा उत्पादन गर्न सकिन्छ र त्यसलाई दैनिक जीवनका विभिन्न कामहरूमा प्रयोग गर्न सकिन्छ।
    सिमसार पारिस्थितिक प्रणालीले कुन कुन प्रकारका जीवजन्तुलाई वासस्थान प्रदान गर्दछ र यसले कसरी जल परिचालन र शुद्धीकरण प्रक्रिया निरन्तर चलिरहने गर्दछ ? सेफोक्सुन्डो ताल क्षेत्रमा विभिन्न प्रकारका वनस्पति र जनावरहरू पाइन्छन्, जस्तै कुट्की, भ्याकुर, विष, जटामसी, लघुपत्र, हिमाली साग, सुनजुरे हाँस, चखेवा चखेवी, बगाले सिमकुखुरा, मरुल, सिन्दुरे हाँस र खोयाँ हाँस। रसुवा जिल्लाको गोसाइकुण्ड ताल क्षेत्रमा १०० प्रजातिका वनस्पति तथा संरक्षित जनावरहरू जस्तै हाब्रे र कस्तूरी मृग पनि पाइन्छन्।

    सिमसार पारिस्थितिक प्रणालीले धेरै जीवाणु, वनस्पति, कीटपतङगर, उभयचर, घस्रने प्राणी, चरा, माछा र स्तनधारी जीवलाई वासस्थान प्रदान गर्दछ। जलवायु, भौगोलिक स्वरूप, जल परिचालन र भौतिक एवम् रासायनिक प्रक्रियाहरूले सिमसारमा जैविक विविधता प्रदान गर्दछन्। सिमसारले जल परिचालन र शुद्धीकरण प्रक्रिया निरन्तर चलिरहने हुनाले यसलाई प्रकृतिको मिर्गौला पनि भनिन्छ। सिमसारले जमिनमा बग्ने सतहको पानीबाट पौष्टिक तत्त्वहरू सोसेर लिन्छ, जसले गर्दा यो अत्यन्त उत्पादनशील पारिस्थितिकीय प्रणाली हो।

    सिमसारले पानी शुद्धीकरण गर्नुका साथै माछा र अन्य जलचरहरूलाई प्रशस्त आहार प्रदान गर्दछ। बाढी आउँदा सिमसारले बाढीको पानी जम्मा गरेर राख्छ, जसले बाढी नियन्त्रणमा मुख्य भूमिका खेल्दछ। सिमसारले वा...
  • Loss: CachedMultipleNegativesSymmetricRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 32
    }
    
yunika_nepali_qa

yunika_nepali_qa

  • Dataset: yunika_nepali_qa at 2c1c337
  • Size: 212 training samples
  • Columns: query and document
  • Approximate statistics based on the first 212 samples:
    query document
    type string string
    details
    • min: 10 tokens
    • mean: 32.51 tokens
    • max: 85 tokens
    • min: 77 tokens
    • mean: 221.99 tokens
    • max: 256 tokens
  • Samples:
    query document
    टेलिभिजनमा देखाउने छविहरूको बोर्डर किन काटिएको हुन्छ? ओभरस्क्यान चलचित्र डिभिडिटमा रूपान्तरण गर्दा सबैभन्दा सामान्य समस्या हो। सामान्य जनतालाई खुशी पार्ने किसिमले धेरै जसो टेलिभिजनहरू बनाइन्छन्। त्यसकारण, तपाईंले टिभीमा देख्नुहुने सबै चीजमा सीमाना काटौती, माथि, तल र छेउहरू हुन्थ्यो। यो छविले पूरै स्क्रिन छोप्दछ भन्ने सुनिश्चित गर्नको लागि बनाइएको हो। त्यसलाई ओभरस्क्यान भनिन्छ। दुर्भाग्यवश, तपाईंले डिभिडि बनाउँदा, यसका बोर्डरहरू पनि सम्भावित रूपमा काटिनेछन् र यदि भिडियोमा उपशीर्षकहरू तल्लो भागको एकदमै नजिक भएमा, तिनीहरूलाई पूर्ण रूपमा देखाइनेछैन।
    दुर्घटनामा कसको मृत्यु भयो ? इन्डियानापोलिस मोटर स्पिडवेमा दुर्घटनामा परेर 13 वर्षे मोटरसाइकल रेसर पिटर लेन्जको मृत्यु भएको छ। आफ्नो वार्म-अप ल्यापमा हुँदा, लेन्ज आफ्नो बाइकबाट खसे र त्यसपछि रेसर साथी जेभियर जायतले हाने। उनलाई अन-ट्र्याक चिकित्सा कर्मचारीद्वारा तुरून्तै हेरियो र एक स्थानीय अस्पतालमा लगियो जहाँ पछि उनको मृत्यु भयो। जायत दुर्घटनामा चोटरहित थियो।
    बाढीपछि पानीको बहाव कति बढ्यो ? 1963 मा ड्यामको निर्माण भएपछि, नदीभरि विभिन्न पदार्थहरू फैलाउने मौसमी बाढीहरू रोकिएका थिए। तलमर स्यान्डबार तथा समुद्री किनारको सिर्जना गर्न आवश्यक थियो, जसले वन्यजन्तुको आवासका रूपमा काम गर्थ्यो। नतिजास्वरूप, दुई माछा प्रजातिहरू लोप भइसकेका छन् र हम्पब्याक चबसहित अन्य दुई लोपोन्मुख भएका छन्। बाढीपछि पानीको सतह केही फिट मात्रै बढ्ने भए तापनि, अधिकारीहरूले यसलाई बालुवाका बारको बाँध भत्काउनका लागि पर्याप्त हुनेछ भनेर आशा लिएका छन्।
  • Loss: CachedMultipleNegativesSymmetricRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 32
    }
    
nepal_legal_rag_qa

nepal_legal_rag_qa

  • Dataset: nepal_legal_rag_qa at ed884c8
  • Size: 1,500 training samples
  • Columns: query and document
  • Approximate statistics based on the first 1000 samples:
    query document
    type string string
    details
    • min: 13 tokens
    • mean: 41.35 tokens
    • max: 143 tokens
    • min: 82 tokens
    • mean: 231.72 tokens
    • max: 256 tokens
  • Samples:
    query document
    What are the penalties for violating Section 262 by using banned currency? [Context 1] Law: National Penal (Code) Act, 2017
    लगत कट्टा गर्दा रोक्का गरिएको सम्पत्तिको के व्यवस्था छ? [Context 1] Law: मुलुकी फौजदारी कार्यविधि संहिता, २०७४
    What is the role of the Government of Nepal in managing foreign assistance and loans as per the Constitution? [Context 1] Law: Constitution of Nepal, 2072 (2015)
  • Loss: CachedMultipleNegativesSymmetricRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 32
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • gradient_accumulation_steps: 4
  • learning_rate: 2e-05
  • num_train_epochs: 10
  • warmup_ratio: 0.05
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 4
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 10
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss indic_rag_ne_cosine_ndcg@10 textbook_qa_nepali_cosine_ndcg@10 yunika_nepali_qa_cosine_ndcg@10 nepal_legal_rag_qa_cosine_ndcg@10
0.2128 50 1.0766 - - - -
0.4255 100 0.9661 - - - -
0.6383 150 0.9012 - - - -
0.8511 200 0.8192 - - - -
1.0638 250 0.7827 0.4389 0.5282 0.7807 0.6418
1.2766 300 0.7369 - - - -
1.4894 350 0.712 - - - -
1.7021 400 0.7195 - - - -
1.9149 450 0.7212 - - - -
2.1277 500 0.6511 0.4558 0.5469 0.7820 0.6461
2.3404 550 0.6259 - - - -
2.5532 600 0.6672 - - - -
2.7660 650 0.6267 - - - -
2.9787 700 0.6407 - - - -
3.1915 750 0.5772 0.4647 0.5515 0.7759 0.6586
3.4043 800 0.5959 - - - -
3.6170 850 0.5975 - - - -
3.8298 900 0.5802 - - - -
4.0426 950 0.5462 - - - -
4.2553 1000 0.5444 0.4675 0.5588 0.7869 0.6583
4.4681 1050 0.5712 - - - -
4.6809 1100 0.5525 - - - -
4.8936 1150 0.5629 - - - -
5.1064 1200 0.5238 - - - -
5.3191 1250 0.525 0.4704 0.5566 0.7869 0.6569
5.5319 1300 0.5072 - - - -
5.7447 1350 0.5305 - - - -
5.9574 1400 0.5083 - - - -
6.1702 1450 0.4974 - - - -
6.3830 1500 0.4907 0.4705 0.5622 0.7869 0.6660
6.5957 1550 0.5231 - - - -
6.8085 1600 0.4834 - - - -
7.0213 1650 0.5013 - - - -
7.2340 1700 0.4729 - - - -
7.4468 1750 0.4866 0.4711 0.5662 0.7869 0.6682
7.6596 1800 0.4879 - - - -
7.8723 1850 0.5005 - - - -
8.0851 1900 0.4698 - - - -
8.2979 1950 0.4716 - - - -
8.5106 2000 0.4806 0.4722 0.5659 0.7896 0.6695
8.7234 2050 0.4865 - - - -
8.9362 2100 0.4487 - - - -
9.1489 2150 0.4583 - - - -
9.3617 2200 0.48 - - - -
9.5745 2250 0.4556 0.4730 0.5678 0.7866 0.6677
9.7872 2300 0.4643 - - - -
10.0 2350 0.4535 - - - -
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.9
  • Sentence Transformers: 4.1.0
  • Transformers: 4.55.4
  • PyTorch: 2.7.1+cu126
  • Accelerate: 1.10.0
  • Datasets: 4.3.0
  • Tokenizers: 0.21.2

Citation

BibTeX

If you use this model, please cite it as:

@misc{subedi2026allminilml6v3nepalirag,
  author       = {Subedi, Sanjaya},
  title        = {all-MiniLM-L6-v3-nepali-rag: A Nepali Sentence Transformer for Retrieval-Augmented Generation},
  year         = {2026},
  publisher    = {Hugging Face},
  journal      = {Hugging Face model repository},
  howpublished = {\url{https://huggingface.co/jangedoo/all-MiniLM-L6-v3-nepali-rag}},
  note         = {Fine-tuned Sentence Transformer model for Nepali semantic search and retrieval-augmented generation}
}
Downloads last month
29
Safetensors
Model size
22.7M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for jangedoo/all-MiniLM-L6-v3-nepali-rag

Unable to build the model tree, the base model loops to the model itself. Learn more.

Datasets used to train jangedoo/all-MiniLM-L6-v3-nepali-rag

Evaluation results