--- language: - zh license: other license_name: cc-by-nc-4.0-derived base_model: bert-base-chinese library_name: transformers pipeline_tag: token-classification tags: - chinese - finance - terminology - term-extraction - token-classification - bert - ner datasets: - wmt-2025-terminology --- # 中文金融术语抽取模型 (BERT) 基于 BERT 的中文金融术语抽取模型,用于从中文文本中识别领域相关术语。 --- ## 🧠 模型简介 该模型基于 `bert-base-chinese` 微调,执行 **token-level 分类(NER风格)**,用于识别文本中的金融术语。 模型适用于翻译辅助、术语提取、金融文本分析等场景。 --- ## 🏗️ 训练流程 模型使用 Hugging Face Transformers + Datasets 构建完整训练管线。 ### 数据处理 - 输入格式:**CoNLL 格式(token + label)** - 每个句子以空行分隔 - 自动构建: - `label2id` - `id2label` - 自动划分训练/验证集: - `dev_ratio = 0.1` --- ## 🔤 分词与标签对齐 - 使用:`BertTokenizerFast` - 设置: - `is_split_into_words=True` - 使用 `word_ids()` 对齐 token 与标签 - 特殊 token(CLS/SEP/PAD)标记为 `-100`(忽略 loss) --- ## ⚙️ 训练配置 - Base model: `bert-base-chinese` - 任务:Token Classification(NER) - 框架:Hugging Face `Trainer` ### 超参数 - learning_rate: 2e-5 - batch_size: 16 - num_train_epochs: 5 - max_seq_length: 256 - weight_decay: 0.01 --- ## 🧪 训练策略 - 评估策略:每个 epoch - 保存策略:每个 epoch - 最优模型选择: - 指标:F1 - `load_best_model_at_end=True` ### 日志 - TensorBoard logging - 每 50 step 记录一次 --- ## ⚡ 硬件优化 - 支持 fp16(自动检测 GPU) - 提升训练效率 --- ## 📊 评估方法 使用 `seqeval` 进行序列标注评估: - F1 score(主要指标) - classification report(训练时打印) 示例输出: ```text precision recall f1-score support ... 🎯 适用场景 该模型适用于: 中文金融术语抽取 翻译流程中的术语识别 CAT 工具辅助 金融领域 NLP 任务 🚫 不适用场景 不建议用于: 通用 NER 任务 医疗/法律等高风险领域 无人工审核的自动决策 🚀 使用方法 from transformers import pipeline pipe = pipeline( "token-classification", model="你的用户名/bert-base-chinese-finance-term-extractor", aggregation_strategy="simple" ) text = "公司发行了可转换债券和金融衍生品。" print(pipe(text)) 🧾 示例 输入: "公司发行了可转换债券和金融衍生品。" 输出: ["可转换债券", "金融衍生品"] ⚠️ 局限性 模型针对金融领域,跨领域泛化能力有限 对未见术语识别能力有限 分词可能影响长术语识别 建议人工校验 📜 许可证 该模型基于 CC BY-NC 4.0 数据训练: ✅ 允许非商业使用 ❌ 禁止商业用途(除非获得授权) ✅ 需要署名 基础模型 bert-base-chinese 为 Apache 2.0,但微调模型受数据集限制。 🙏 致谢 Base model: bert-base-chinese Dataset: WMT 2025 术语资源 Framework: Hugging Face Transformers & Datasets Evaluation: seqeval