作者:Victor Sonck,ClearML 开发倡导者
在文本中检测讽刺可能很困难,尤其是对于机器而言。然而,借助大型语言模型的力量,可以创建一个能够高精度识别讽刺评论的工具。这正是 ClearML 团队在其最新项目中实现的:一个结合了各种 ClearML 工具的讽刺检测器,旨在展示 MLOps 的能力。
在 chatGPT 和专有 API 盛行的时代,这个项目旨在作为一个示例,展示如何基于大型语言模型创建可以在您自己的机器上运行并完全受您控制的工具。并且由于 ClearML 是开源的,整个 MLOps 堆栈甚至可以在本地运行。
讽刺检测器在一个包含 130 万条来自 Reddit 的讽刺评论的数据集上进行训练,为准确分析提供了坚实的基础。我们利用开源技术和来自 Kaggle(一个由数据科学家和机器学习从业者组成的社区)的数据构建了该检测器。具体来说,我们使用包含 \s (sarcasm) 标签的 Reddit 评论来训练模型,并实现了 Transformers 和 Gradio 以优化其性能。
观看关于讽刺检测器如何工作的视频
通过将大型语言模型与易于使用的界面相结合,以便主动标记和纠正错误,您可以轻松构建一个非常强大的封闭训练系统。使用 ClearML 作为 MLOps 平台可以将所有内容结合在一起,跟踪传入数据,自动化训练运行,甚至托管 Gradio 实例。通过这种方式,讽刺检测器虽然玩起来很有趣,但它也为更实际、面向业务的用例提供了一个示例。
秉持协作和开源开发精神,我们已将讽刺检测器的代码发布在 GitHub 上。快去看看,从中获取灵感,构建您自己的 MLOps 系统,或者只是玩玩它,开怀一笑——那也挺好!😀
下载 ClearML 讽刺检测器的代码,请访问:https://github.com/thepycoder/sarcasm_detector。
通过使用我们的免费套餐服务器或自行托管来开始使用 ClearML。在此阅读我们的文档。您可以在我们的 YouTube 频道上找到更多关于 ClearML 的深度教程,我们还有一个非常活跃的 Slack 频道,可以为任何需要帮助的人提供支持。如果您需要扩展您的 ML 管线和数据抽象,或者需要无与伦比的性能和控制,请申请演示。