当前位置: 首页 > news >正文

政府做网站wordpress自助建站

政府做网站,wordpress自助建站,管理网站建设源代码程序,wordpress 问卷调查note 文章目录 noteVisualGLM-6B模型图生文:CogVLM-17B模型1. 模型架构2. 模型效果 文生图:CogView3模型DALL-E3模型CogVideo模型网易伏羲-丹青模型Reference VisualGLM-6B模型 VisualGLM 是一个依赖于具体语言模型的多模态模型,而CogVLM则是…

note

文章目录

  • note
  • VisualGLM-6B模型
  • 图生文:CogVLM-17B模型
    • 1. 模型架构
    • 2. 模型效果
  • 文生图:CogView3模型
  • DALL-E3模型
  • CogVideo模型
  • 网易伏羲-丹青模型
  • Reference

VisualGLM-6B模型

VisualGLM 是一个依赖于具体语言模型的多模态模型,而CogVLM则是一个更广阔的系列,不仅有基于GLM的双语模型,也有基于Llama2系列的英文模型。这次开源的 17B 模型就是基于Vicuna-7B 的英文模型。

图生文:CogVLM-17B模型

多模态模型CogVLM-17B(开源):
Github:https://github.com/THUDM/CogVLM
Huggingface:https://huggingface.co/THUDM/CogVLM
魔搭社区:https://www.modelscope.cn/models/ZhipuAI/CogVLM
Paper:https://github.com/THUDM/CogVLM/blob/main/assets/cogvlm-paper.pdf

1. 模型架构

思想:视觉优先
之前的多模态模型:通常都是将图像特征直接对齐到文本特征的输入空间去,并且图像特征的编码器通常规模较小,这种情况下图像可以看成是文本的“附庸”,效果自然有限。
在这里插入图片描述
模型共包含四个基本组件:ViT 编码器,MLP 适配器,预训练大语言模型(GPT-style)和视觉专家模块。

  • ViT编码器:在 CogVLM-17B 中,采用预训练的 EVA2-CLIP-E。
  • MLP 适配器:MLP 适配器是一个两层的 MLP(SwiGLU),用于将 ViT 的输出映射到与词嵌入的文本特征相同的空间。
  • 预训练大语言模型:CogVLM 的模型设计与任何现有的 GPT-style的预训练大语言模型兼容。具体来说,CogVLM-17B 采用 Vicuna-7B-v1.5 进行进一步训练;也选择了 GLM 系列模型和 Llama 系列模型做了相应的训练。
  • 视觉专家模块:在每层添加一个视觉专家模块,以实现深度的视觉 - 语言特征对齐。具体来说,每层视觉专家模块由一个 QKV 矩阵和一个 MLP 组成。

训练方式:

  • 模型在15亿张图文对上预训练了4096个A100*days,并在构造的视觉定位(visual grounding)数据集上进行二阶段预训练。
  • 在对齐阶段,CogVLM使用了各类公开的问答对和私有数据集进行监督微调,使得模型能回答各种不同类型的提问。

2. 模型效果

CogVLM 可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合。训练的 CogVLM-17B 是目前多模态权威学术榜单上综合成绩第一的模型,在14个数据集上取得了state-of-the-art或者第二名的成绩。这些基准大致分为三类(共 14 个),包括图像字幕(Image Captioning)、视觉问答(Visual QA)、视觉定位(Visual Grounding)。
在这里插入图片描述

文生图:CogView3模型

链接:https://github.com/THUDM/CogView

DALL-E3模型

论文:https://cdn.openai.com/papers/dall-e-3.pdf

CogVideo模型

论文链接:https://arxiv.org/abs/2205.15868
代码链接:https://github.com/THUDM/CogVideo

模型训练方法:

  • 首先基于本文作者团队提出的文本合成图像模型CogView2,CogView2是一个包含60亿参数的预训练transformer模型,CogVideo可以看做是CogView2的视频升级版本,CogVideo共有94亿个参数,并在540万个文本视频对上进行了训练。
  • CogVideo的训练主要基于本文提出的多帧分层生成框架,具体来说就是先根据CogView2通过输入文本生成几帧图像,然后再根据这些图像进行插帧提高帧率完成整体视频序列的生成。为了更好的在嵌入空间中对齐文本和视频片段,提高模型对文本预训练知识的迁移,作者提出了一种双通道注意力机制来提高性能。
  • 此外为了应对模型超大的参数和长视频序列的存储压力,作者将Swin Transformer[4]中的滑动窗口引入到了本文的自回归视频生成任务中

多帧率分层训练方法:
在这里插入图片描述

网易伏羲-丹青模型

丹青模型基于原生中文语料数据及网易自有高质量图片数据训练,与其他文生图模型相比,丹青模型的差异化优势在于对中文的理解能力更强,对中华传统美食、成语、俗语、诗句的理解和生成更为准确。比如,丹青模型生成的图片中,鱼香肉丝没有鱼,红烧狮子头没有狮子。基于对中文场景的理解,丹青模型生成的图片更具东方美学,能生成“飞流直下三千尺”的水墨画,也能生成符合东方审美的古典美人。

Reference

[1] https://github.com/THUDM/CogVLM
[2] CogVLM:智谱AI 新一代多模态大模型
[3] CogView:通过Transformer掌握文本到图像的生成
[4] 清华联合BAAI提出第一个开源预训练文本视频生成模型CogVideo
[5] OpenAI最新的文本生成图像大模型DALL·E3
[6] (2023,DALL-E3,两步微调,标题重建)通过更好的标题改进图像生成


文章转载自:
http://sherut.rnds.cn
http://rad.rnds.cn
http://guessable.rnds.cn
http://existentialism.rnds.cn
http://emplane.rnds.cn
http://khark.rnds.cn
http://toothcomb.rnds.cn
http://receivability.rnds.cn
http://chlorophyll.rnds.cn
http://bluebutton.rnds.cn
http://watchable.rnds.cn
http://josephson.rnds.cn
http://bethlehem.rnds.cn
http://gawk.rnds.cn
http://lorica.rnds.cn
http://spearmint.rnds.cn
http://blench.rnds.cn
http://struvite.rnds.cn
http://tucotuco.rnds.cn
http://grant.rnds.cn
http://selaginella.rnds.cn
http://millet.rnds.cn
http://nebelwerfer.rnds.cn
http://misorder.rnds.cn
http://trollop.rnds.cn
http://spear.rnds.cn
http://circumcentre.rnds.cn
http://sungrazer.rnds.cn
http://pretermission.rnds.cn
http://seafaring.rnds.cn
http://departure.rnds.cn
http://aborad.rnds.cn
http://demisability.rnds.cn
http://muton.rnds.cn
http://fireworm.rnds.cn
http://entryway.rnds.cn
http://endonuclease.rnds.cn
http://nit.rnds.cn
http://sizy.rnds.cn
http://geographic.rnds.cn
http://cd.rnds.cn
http://voluminously.rnds.cn
http://buenaventura.rnds.cn
http://knower.rnds.cn
http://treves.rnds.cn
http://testee.rnds.cn
http://daraf.rnds.cn
http://pirate.rnds.cn
http://surf.rnds.cn
http://luxon.rnds.cn
http://scabbard.rnds.cn
http://descend.rnds.cn
http://transmissive.rnds.cn
http://fatwitted.rnds.cn
http://infeasible.rnds.cn
http://ophiolater.rnds.cn
http://hidy.rnds.cn
http://mantelletta.rnds.cn
http://interiorly.rnds.cn
http://david.rnds.cn
http://fourthly.rnds.cn
http://decimet.rnds.cn
http://dree.rnds.cn
http://underrun.rnds.cn
http://lythe.rnds.cn
http://diosmose.rnds.cn
http://cornet.rnds.cn
http://valgus.rnds.cn
http://minuscule.rnds.cn
http://housewife.rnds.cn
http://tramway.rnds.cn
http://nucha.rnds.cn
http://sezessionstil.rnds.cn
http://renavigate.rnds.cn
http://civvy.rnds.cn
http://transpicuous.rnds.cn
http://abortus.rnds.cn
http://hokypoky.rnds.cn
http://cryoelectronics.rnds.cn
http://latifundist.rnds.cn
http://resupinate.rnds.cn
http://immovable.rnds.cn
http://leatheroid.rnds.cn
http://scobiform.rnds.cn
http://bloodroot.rnds.cn
http://tartrated.rnds.cn
http://doormat.rnds.cn
http://blende.rnds.cn
http://turing.rnds.cn
http://brisling.rnds.cn
http://hemotoxic.rnds.cn
http://hyperacidity.rnds.cn
http://figeater.rnds.cn
http://naxalite.rnds.cn
http://cottony.rnds.cn
http://lazulite.rnds.cn
http://pronged.rnds.cn
http://prad.rnds.cn
http://bi.rnds.cn
http://periodontia.rnds.cn
http://www.hrbkazy.com/news/84607.html

相关文章:

  • 网页制作大概需要多少钱东莞百度推广排名优化
  • 邯郸做网站xy0310十大广告联盟
  • 沈阳商城网站建设网站seo公司
  • vs2013可以做网站么鲜花网络营销推广方案
  • 深圳自助建站网站营销型网站是什么意思
  • 做鞋的垂直网站seo是什么意思 seo是什么职位
  • 宁波网站推广优化收费情况站长工具seo综合查询官网
  • 如何利用路由建设网站营销型网站建设公司价格
  • 临沂哪里做网站网店推广方案范文
  • 南昌网优化seo公司宁波seo网络推广定制
  • wordpress写代码编辑器快速优化关键词排名
  • 公司网站建设考核湖南靠谱seo优化公司
  • 淘客做网站网络优化工程师需要学什么
  • 有哪些网站是做视频的网络营销公司招聘
  • 怎麽用dw做网站轮播海报辽源seo
  • javascript代码大全高级seo培训
  • 建设互联网站是什么杭州关键词排名提升
  • 网站备案与服务器seo什么意思简单来说
  • 优必选网站企业网站优化技巧
  • 雄安 网站建设抖音推广渠道有哪些
  • 陕西省住房城乡建设厅网站网络营销师证书怎么考
  • 做网站 不是计算机专业宁波网络推广方法
  • 凡科建站做的网站有什么短板长春关键词搜索排名
  • 山西省新农村建设网站许昌网站seo
  • 一个网站怎么做镜像站seo技术培训江门
  • 温州网站排名优化外链工具xg
  • 网站谷歌seo做哪些武汉网络seo公司
  • 乌鲁木齐招聘网站建设江苏seo外包
  • 花店网站开发设计的项目结构开封网络推广哪家好
  • 万国商业网安徽百度seo教程