geological-ner / README.md
vabatista's picture
Update README.md
9da2d62 verified
metadata
license: mit
language:
  - pt
pipeline_tag: token-classification
base_model: neuralmind/bert-base-portuguese-cased
widget:
  - text: >-
      Em termos de períodos geológicos, cada tipo de rocha está associado a
      diferentes épocas e processos na história da Terra. Por exemplo, as rochas
      ígneas são frequentemente associadas a períodos de intensa atividade
      vulcânica, como o período Mesozoico, quando os dinossauros dominavam a
      Terra. As rochas sedimentares, por sua vez, são encontradas em abundância
      em depósitos de antigas bacias oceânicas e lagos, como durante o período
      Cenozoico. Já as rochas metamórficas são frequentemente associadas a
      períodos de intensa atividade tectônica, como durante o período
      Proterozoico, quando supercontinentes se formaram e se fragmentaram.
    example_title: Example 1
  - text: >-
      O petróleo é gerado nas bacias sedimentares a partir de matéria orgânica
      acumulada, juntamente com sedimentos inorgânicos, em ambientes deficientes
      em oxigénio. Esta acumulação faz-se, em geral, no fundo de lagos, lagunas
      ou mares com deficiente movimentação e de correntes junto ao fundo. A
      matéria orgânica, assim, embora preservada da oxidação, sofre modificações
      resultantes de reações químicas inorgânicas e pela ação de bactérias, do
      que resulta a geração de algum gás biogénico e a transformação da restante
      matéria orgânica em querogénio, um material rico em hidrocarbonetos
      sólidos muito pesados. As rochas ricas em querogénio, em geral rochas
      detríticas finas (xistos betuminosos) ou carbonatadas (calcários e margas
      betuminosas), designam-se por rochas-mãe ou rochas geradoras, porque é
      nelas que ocorrerá a geração do petróleo.
    example_title: Example 2

This model is a Brazilian Portuguese Named Entity Recognition (NER), based on neuralmind/bert-base-portuguese-cased base model and specialized in Geological concepts. It was trained for 3 epochs using the dataset from this paper.

You can find the notebook used to train the model here. Trainer output was: image/png

To use this model, run into a pipeline:

## run the prediction
txt = YOUR_TEXT
classifier = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy='simple')
entities = classifier(txt)

## display in a fancy way
dict_ents = {
    'text': txt,
    'ents': [{'start': ent['start'], 'end': ent['end'], 'label': ent['entity_group']} for ent in entities],
    'title': None

}

displacy.render(dict_ents, manual=True, style="ent")