Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关键信息提取模型标注和训练支持几种标签 #132

Open
zhangxj-1 opened this issue Jan 8, 2025 · 1 comment
Open

关键信息提取模型标注和训练支持几种标签 #132

zhangxj-1 opened this issue Jan 8, 2025 · 1 comment

Comments

@zhangxj-1
Copy link

看到XFUND数据集支持“header question answer other”四种标签,自定义数据集支持除此四种以外自定义的其他种类的标签吗?

@GreatV
Copy link
Collaborator

GreatV commented Jan 8, 2025

XFUND 数据集支持的“header”、“question”、“answer”、“other”四种标签,是其标准化的标签体系,主要用于文档关键信息提取任务。然而,基于您提到的自定义数据集,可以支持自定义标签。

根据目前的文档和相关问题讨论:

  1. 自定义标签支持
    您可以在自定义数据集中定义和使用额外的标签类型,而不仅限于 XFUND 的四种标签。实际上,工具如 PPOCRLabel 支持用户在标注时根据具体需求添加自定义字段和标签。您只需要在标注工具设置中调整标签种类,并确保训练模型时的配置文件与这些标签类型保持一致。

  2. 相关问题讨论

    • Issue #94Issue #90 中提到,当前的工具在某些功能上可能需要额外字段(例如 id 和 link 字段)。这意味着如果您的任务需要更复杂的标注(例如关系提取任务),可能需要额外手动定义这些字段。
    • Issue #102 也提到了优化需求,说明工具在用户体验和功能上有改进空间,但并未限制自定义标签的使用。
  3. 操作建议
    如果您需要自定义标签,建议:

    • 在 PPOCRLabel 或类似工具中,手动调整标注配置文件,添加新的标签类型。
    • 确保模型的训练数据和配置文件与您定义的自定义标签一致。
    • 如果任务需要更复杂的功能(如关系提取),根据需求定义额外字段,比如 idlink,并在后续处理管道中进行支持。

总结来说,您可以完全自定义数据集的标签种类,而不仅限于 XFUND 的四种标签。只需确保标注工具和模型配置能够正确支持这些自定义设置即可。


Response generated by feifei-bot | chatgpt-4o-latest

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants