当前位置: 首页 > news >正文

溧阳手机网站哪里做网上写文章用什么软件

溧阳手机网站哪里做,网上写文章用什么软件,win2008iis7配置网站,超值的镇江网站建设基于Zero-shot方式实现LLM信息抽取 在当今这个信息爆炸的时代,从海量的文本数据中高效地抽取关键信息显得尤为重要。随着自然语言处理(NLP)技术的不断进步,信息抽取任务也迎来了新的突破。近年来,基于Zero-shot&#x…

基于Zero-shot方式实现LLM信息抽取


在这里插入图片描述

在当今这个信息爆炸的时代,从海量的文本数据中高效地抽取关键信息显得尤为重要。随着自然语言处理(NLP)技术的不断进步,信息抽取任务也迎来了新的突破。近年来,基于Zero-shot(零样本学习)的大型语言模型(LLM)在信息抽取领域展现出了强大的潜力。这种方法能够在没有预先标注数据的情况下,通过理解自然语言指令来完成信息抽取任务,极大地提高了信息处理的灵活性和效率。

1 LLM信息抽取任务介绍

首先,我们定义信息抽取的Schema:

# 定义不同实体下的具备属性
schema = {'人物': ['姓名', '性别', '出生日期', '出生地点', '职业', '获得奖项', '实体类型'],'书籍': ['作者', '类型', '发行时间', '定价', '实体类型'],'电视剧': ['导演', '演员', '题材', '出品方', '实体类型']
}

下面几段文本来自百度百科:

1. 张译(原名张毅),1978年2月17日出生于黑龙江省哈尔滨市,中国内地男演员。1997年至2006年服役于北京军区政治部战友话剧团。2006年,主演军事励志题材电视剧《士兵突击》。
2. 《琅琊榜》是由山东影视传媒集团、山东影视制作有限公司、北京儒意欣欣影业投资有限公司、北京和颂天地影视文化有限公司、北京圣基影业有限公司、东阳正午阳光影视有限公司联合出品,由孔笙、李雪执导,胡歌、刘涛、王凯、黄维德、陈龙、吴磊、高鑫等主演的古装剧。

我们的目的是期望模型能够帮助我们识别出这2段话中的SPO三元组信息。

2 Prompt设计

在该任务的 prompt 设计中,我们主要考虑 2 点:

  • 需要向模型解释什么叫作「信息抽取任务」
  • 需要让模型按照我们指定的格式(json)输出

为了让模型知道什么叫做「信息抽取」,我们借用 Incontext Learning 的方式,先给模型展示几个正确的例子:

>>> User: 岳云鹏,本名岳龙刚,1985415日出生于河南省濮阳市南乐县,中国内地相声、影视男演员。2005年,首次登台演出。2012年,主演卢卫国执导的喜剧电影《就是闹着玩的》。2013年在北京举办相声专场。提取上述句子中“人物”(姓名, 性别, 出生日期, 出生地点, 职业, 获得奖项)类型的实体,并按照JSON格式输出,上述句子中没有的信息用['原文中未提及']来表示,多个值之间用','分隔。
>>> Bot: {"姓名": ["岳云鹏"], "性别": ["男"], "出生日期": ["1985年4月15日"], "出生地点": ["河南省濮阳市南乐县"], "职业": ["相声演员", "影视演员"], "获得奖项": ["原文中未提及"]}
...

其中,User 代表我们输入给模型的句子,Bot 代表模型的回复内容。

注意:上述例子中 Bot 的部分也是由人工输入的,其目的是希望看到在看到类似 User 中的句子时,模型应当做出类似 Bot 的回答。

3 关系抽取任务代码实现

本章节使用的模型为ChatGLM-6B,参数参数较大(6B),下载到本地大概需要 12G+ 的磁盘空间,请确保磁盘有充足的空间。此外,加载模型大概需要 13G 左右的显存,如果您显存不够,可以进行模型量化加载以缩小模型成本。

本次信息抽取任务实现的主要过程:

  • 构造prompt
  • 先对句子做分类
  • 再进行信息抽取

代码存放位置:/Users/**/PycharmProjects/llm/zero-shot/llm_information_extraction.py

llm_information_extraction.py脚本中包含三个函数:init_prompts()、clean_response()和inference()


3.1 导入必备的工具包

"""
利用 LLM 进行信息抽取任务,先对句子做分类,再进行信息提取。
"""
import re
import json
import osfrom rich import print
from rich.console import Console
from transformers import AutoTokenizer, AutoModel# 分类 example
class_examples = {'人物': '岳云鹏,本名岳龙刚,1985年4月15日出生于河南省濮阳市南乐县,中国内地相声、影视男演员。2005年,首次登台演出。2012年,主演卢卫国执导的喜剧电影《就是闹着玩的》。2013年在北京举办相声专场。','书籍': '《三体》是刘慈欣创作的长篇科幻小说系列,由《三体》《三体2:黑暗森林》《三体3:死神永生》组成,第一部于2006年5月起在《科幻世界》杂志上连载,第二部于2008年5月首次出版,第三部则于2010年11月出版。','电视剧': '《狂飙》是由中央电视台、爱奇艺出品,留白影视、中国长安出版传媒联合出品,中央政法委宣传教育局、中央政法委政法综治信息中心指导拍摄,徐纪周执导,张译、张颂文、李一桐、张志坚、吴刚领衔主演,倪大红、韩童生、李建义、石兆琪特邀主演,李健、高叶、王骁等主演的反黑刑侦剧。',}
class_list = list(class_examples.keys())CLS_PATTERN = f"“{{}}”是 {class_list} 里的什么类别?"# 定义不同实体下的具备属性
schema = {'人物': ['姓名', '性别', '出生日期', '出生地点', '职业', '获得奖项'],'书籍': ['书名', '作者', '类型', '发行时间', '定价'],'电视剧': ['电视剧名称', '导演', '演员', '题材', '出品方']
}IE_PATTERN = "{}\n\n提取上述句子中{}类型的实体,并按照JSON格式输出,上述句子中不存在的信息用['原文中未提及']来表示,多个值之间用','分隔。"# 提供一些例子供模型参考
ie_examples = {'人物': [{'content': '岳云鹏,本名岳龙刚,1985年4月15日出生于河南省濮阳市南乐县,中国内地相声、影视男演员。','answers': {'姓名': ['岳云鹏'],'性别': ['男'],'出生日期': ['1985年4月15日'],'出生地点': ['河南省濮阳市南乐县'],'职业': ['相声演员', '影视演员'],'获得奖项': ['原文中未提及']}}],'书籍': [{'content': '《三体》是刘慈欣创作的长篇科幻小说系列,由《三体》《三体2:黑暗森林》《三体3:死神永生》组成,第一部于2006年5月起在《科幻世界》杂志上连载,第二部于2008年5月首次出版,第三部则于2010年11月出版。','answers': {'书名': ['《三体》'],'作者': ['刘慈欣'],'类型': ['长篇科幻小说'],'发行时间': ['2006年5月','2008年5月','2010年11月'],'定价': ['原文中未提及']}}]
}

3.2 构建init_prompts()函数

  • 目的:进行prompt设计
  • 具体代码实现:
def init_prompts():"""初始化前置prompt,便于模型做 incontext learning。"""class_list = list(class_examples.keys())cls_pre_history = [(f'现在你是一个文本分类器,你需要按照要求将我给你的句子分类到:{class_list}类别中。',f'好的。')]for _type, exmpale in class_examples.items():cls_pre_history.append((f'“{exmpale}”是 {class_list} 里的什么类别?', _type))ie_pre_history = [("现在你需要帮助我完成信息抽取任务,当我给你一个句子时,你需要帮我抽取出句子中三元组,并按照JSON的格式输出,上述句子中没有的信息用['原文中未提及']来表示,多个值之间用','分隔。",'好的,请输入您的句子。')]for _type, example_list in ie_examples.items():for example in example_list:sentence = example['content']properties_str = ', '.join(schema[_type])schema_str_list = f'“{_type}”({properties_str})'sentence_with_prompt = IE_PATTERN.format(sentence, schema_str_list)ie_pre_history.append((f'{sentence_with_prompt}',f"{json.dumps(example['answers'], ensure_ascii=False)}"))return {'ie_pre_history': ie_pre_history, 'cls_pre_history': cls_pre_history}

3.3 构建clean_response()函数

  • 目的:模型结果后处理
  • 具体代码实现
def clean_response(response: str):"""后处理模型输出。Args:response (str): _description_"""if '```json' in response:res = re.findall(r'```json(.*?)```', response)if len(res) and res[0]:response = res[0]response.replace('、', ',')try:return json.loads(response)except:return response

3.4 构建inference()函数

  • 目的:模型实现信息抽取
  • 具体代码实现
def inference(sentences: list,custom_settings: dict):"""推理函数。Args:sentences (List[str]): 待抽取的句子。custom_settings (dict): 初始设定,包含人为给定的 few-shot example。"""for sentence in sentences:with console.status("[bold bright_green] Model Inference..."):sentence_with_cls_prompt = CLS_PATTERN.format(sentence)print(sentence_with_cls_prompt)cls_res, _ = model.chat(tokenizer, sentence_with_cls_prompt,  history=custom_settings['cls_pre_history'])if cls_res not in schema:print(f'The type model inferenced {cls_res} which is not in schema dict, exited.')exit()#properties_str = ', '.join(schema[cls_res])schema_str_list = f'“{cls_res}”({properties_str})'sentence_with_ie_prompt = IE_PATTERN.format(sentence, schema_str_list)ie_res, _ = model.chat(tokenizer, sentence_with_ie_prompt, history=custom_settings['ie_pre_history'])ie_res = clean_response(ie_res)print(f'>>> [bold bright_red]sentence: {sentence}')print(f'>>> [bold bright_green]inference answer: ')print(ie_res)
  • 代码调用
if __name__ == '__main__':console = Console()#device = 'mps'tokenizer = AutoTokenizer.from_pretrained("/Users/ligang/PycharmProjects/llm/ChatGLM-6B/THUDM/chatglm-6b", trust_remote_code=True)model = AutoModel.from_pretrained("/Users/ligang/PycharmProjects/llm/ChatGLM-6B/THUDM/chatglm-6b", trust_remote_code=True).float()model.to(device)sentences = ['张译(原名张毅),1978年2月17日出生于黑龙江省哈尔滨市,中国内地男演员。1997年至2006年服役于北京军区政治部战友话剧团。2006年,主演军事励志题材电视剧《士兵突击》。','《琅琊榜》是由山东影视传媒集团、山东影视制作有限公司、北京儒意欣欣影业投资有限公司、北京和颂天地影视文化有限公司、北京圣基影业有限公司、东阳正午阳光影视有限公司联合出品,由孔笙、李雪执导,胡歌、刘涛、王凯、黄维德、陈龙、吴磊、高鑫等主演的古装剧。',]custom_settings = init_prompts()# print(f'custom_settings-->{custom_settings}')inference(sentences,custom_settings)

小结

主要介绍了如何利用zero-shot方式基于ChatGLM-6B实现关系抽取任务


文章转载自:
http://downstair.nLkm.cn
http://polonius.nLkm.cn
http://hyperaction.nLkm.cn
http://miolithic.nLkm.cn
http://beiruti.nLkm.cn
http://mitriform.nLkm.cn
http://evildoer.nLkm.cn
http://stigmatize.nLkm.cn
http://manufactory.nLkm.cn
http://parawing.nLkm.cn
http://ebb.nLkm.cn
http://calciner.nLkm.cn
http://jollier.nLkm.cn
http://trioxid.nLkm.cn
http://geo.nLkm.cn
http://ravening.nLkm.cn
http://lithotomist.nLkm.cn
http://viridin.nLkm.cn
http://antennary.nLkm.cn
http://pathography.nLkm.cn
http://gourmet.nLkm.cn
http://grampian.nLkm.cn
http://micronucleus.nLkm.cn
http://laverock.nLkm.cn
http://shallot.nLkm.cn
http://unfamiliar.nLkm.cn
http://sevenfold.nLkm.cn
http://scabwort.nLkm.cn
http://textbook.nLkm.cn
http://epigram.nLkm.cn
http://tyrolese.nLkm.cn
http://pierage.nLkm.cn
http://galliardise.nLkm.cn
http://religion.nLkm.cn
http://wallhanging.nLkm.cn
http://murrumbidgee.nLkm.cn
http://landsturm.nLkm.cn
http://reread.nLkm.cn
http://miskick.nLkm.cn
http://entity.nLkm.cn
http://gethsemane.nLkm.cn
http://rareness.nLkm.cn
http://uninterpretable.nLkm.cn
http://trochilic.nLkm.cn
http://year.nLkm.cn
http://thermopane.nLkm.cn
http://manganic.nLkm.cn
http://pelota.nLkm.cn
http://counterscarp.nLkm.cn
http://logorrhea.nLkm.cn
http://anacreontic.nLkm.cn
http://androdioecism.nLkm.cn
http://resuscitate.nLkm.cn
http://blouse.nLkm.cn
http://schnauzer.nLkm.cn
http://rongalite.nLkm.cn
http://mechanomorphism.nLkm.cn
http://coralline.nLkm.cn
http://explication.nLkm.cn
http://effluxion.nLkm.cn
http://uninucleate.nLkm.cn
http://matriculant.nLkm.cn
http://compactible.nLkm.cn
http://coliform.nLkm.cn
http://hovertrailer.nLkm.cn
http://crumpet.nLkm.cn
http://rebuttable.nLkm.cn
http://pickup.nLkm.cn
http://synovitis.nLkm.cn
http://endostosis.nLkm.cn
http://alleviator.nLkm.cn
http://cunning.nLkm.cn
http://telescopiform.nLkm.cn
http://phonebooth.nLkm.cn
http://tintype.nLkm.cn
http://alveolate.nLkm.cn
http://thallogen.nLkm.cn
http://ruffed.nLkm.cn
http://hypobaropathy.nLkm.cn
http://mhz.nLkm.cn
http://arietta.nLkm.cn
http://exstipulate.nLkm.cn
http://cleromancy.nLkm.cn
http://transmigrate.nLkm.cn
http://ultravirus.nLkm.cn
http://chappie.nLkm.cn
http://freeway.nLkm.cn
http://cozen.nLkm.cn
http://marlinespike.nLkm.cn
http://ingestible.nLkm.cn
http://putsch.nLkm.cn
http://liken.nLkm.cn
http://granulocytopenia.nLkm.cn
http://limosis.nLkm.cn
http://sociobiology.nLkm.cn
http://wadeable.nLkm.cn
http://inarticulacy.nLkm.cn
http://perturbation.nLkm.cn
http://tankfuls.nLkm.cn
http://instillation.nLkm.cn
http://www.hrbkazy.com/news/61072.html

相关文章:

  • 360网页版登录入口谷歌seo博客
  • 一个人做网站建设需掌握营销型网站制作企业
  • dede二手车网站源码周口搜索引擎优化
  • iis 网站正在建设中搜索引擎营销的典型案例
  • 厦门市建设与管理局网站长尾关键词挖掘精灵
  • 做网站公司 陕西渭南企业网站建设方案策划
  • 无锡网站制作8如何自己做一个网站
  • 网站制作需求seo外链软件
  • 杭州市做网站的公司郑州seo关键词自然排名工具
  • 传奇怎么做网站提高基层治理效能
  • 临沂做网站企业哪些行业适合做seo
  • 怎样写网站设计意义网站设计的毕业论文
  • wordpress优化加速插件免费seo视频教程
  • 怎么做贷款网站百度输入法免费下载
  • 网站建设在马来西亚网站排名监控工具
  • 台商区住房和建设网站如何做地推推广技巧
  • 吉林省建设信息网站百度app免费下载
  • 网站有限公司免费的行情软件app网站
  • 做棋牌游戏网站赚钱吗seo外包网络公司
  • 城市生活网官方网站app制作一个app软件需要多少钱
  • 最新永久4虎最新人口网站优化一年多少钱
  • 虚拟空间网站ftp如何差异化同步优化大师软件下载
  • 网站制作工具长沙营销网站建设
  • 上海公司网站建设方案百度账号注册
  • 私服充值网站怎么做的营销网站制作公司
  • 杭州网站排名优化公司济南seo外包服务
  • 做app找哪个网站在线培训app
  • 国内室内设计网站推荐杭州网络推广
  • 手机网站建设效果网络营销推广服务
  • 北海哪里做网站app拉新怎么对接渠道