专业IT网络知识平台,分享IT百科知识、生活百科知识解答!

易企推科技
易企推科技

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

来源:小易整编  作者:小易  发布时间:2024-03-18 07:59
摘要:夕小瑶科技说原创 作者|智商掉了一地近日有很多团队基于用户友好的ChatGPT进行再创作,其中不乏有比较亮眼的成果。InternChat工作强调了用户友好性,这是通过超越语言的方式(光标与手势)与聊天机器人交互来进行多模态任务的。...

夕小瑶科技说 原创 作者 | 智商掉了一地

Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!

近日有很多团队基于用户友好的 ChatGPT 进行再创作,其中不乏有比较亮眼的成果。InternChat工作强调了用户友好性,这是通过超越语言的方式(光标与手势)与聊天机器人交互来进行多模态任务的。InternChat 的命名也比较有趣,代表着互动(interaction)、非语言(nonverbal)和聊天机器人(chatbots),可以简称为iChat。与现有依赖纯语言的交互系统不同,iChat 通过加入指向指令,显著提高用户与聊天机器人之间的交流效率。此外,作者还提供了一个名为哈士奇(Husky)的大型视觉语言模型,可以进行 capture 和视觉问答,在仅用 70 亿参数的情况下,也能给 GPT-3.5-turbo 留下深刻印象。

不过由于 Demo 网站过于火爆,团队官方暂时关停了体验页面,咱们先通过下面这个视频来了解这项工作内容吧~

论文题目:InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language

论文链接:www.php/link/7c9966afcc510cf5a40621d1d92bdaf1

Demo 地址:www.php/link/e355ad06c5a89f911fbb0aff2de52435

项目地址:www.php/link/2d13d901966a8eaa7f9c943eba6a540b

系统主要特点

作者在项目首页上提供了一些任务截图,可以直观地看到这个交互系统的一些功能与效果:

(a)移除遮盖的对象

(b)交互式图像编辑

(c)图像生成

(d)交互式视觉问答

(e)交互式图像生成

(f)视频高光解释

论文速览

这里首先介绍本文中提及的两个概念:

以视觉为中心的任务:为了让计算机能够理解它们从世界中看到的内容并做出相应反应。非语言指令形式的交流:光标和手势之类的指向动作。

▲图1 iChat 的整体架构

iChat 结合指向和语言指令的优势来执行以视觉为中心的任务。如图 1 所示,这个系统由 3 个主要组件组成:

处理图像或视频上指向指令的感知单元;具有可以准确解析语言指令的辅助控制机制的 LLM 控制器;集成 HuggingFace 各种在线模型、用户训练的私人模型以及其他应用(如计算器、搜索引擎)的开放世界工具包。

它可以在 3 个层级上有效运行,分别是:

基础交互;语言引导的交互;指向-语言增强的交互。

由此,如图 2 所示,当纯语言的系统无法完成任务时,该系统仍可以成功执行复杂的交互任务。

▲图2 指向-语言驱动的交互系统优势

实验

首先我们来看,同时结合语言和非语言指令来提升用于与交互系统之间的沟通效果。为了证明这种混合模式与单纯语言指令相比的优点,研究团队进行了一个用户调查。参与者与 Visual ChatGPT 和 iChat 聊天,并反馈他们的使用感受。表 1 和 2 的结果表明,iChat 比 Visual ChatGPT 更高效且对用户友好。

▲表1 “移除某物”的用户调查

▲表2 “用某物代替某物”的用户调查

小结

不过,目前该系统仍存在着一些局限性,包括了:

iChat 的高效性在很大程度上取决于其底层开放源代码模型的质量和准确性。然而,这些模型可能存在一些局限或偏见,进而对 iChat 的性能造成不利影响。随着用户交互变得更加复杂或实例数量增多,系统需要维护准确性和响应时间,这对于 iChat 来说可能具有挑战性。此外,当前的视觉和语言基础模型之间缺乏可学习的协作,例如缺乏被指令数据调整的功能。iChat 可能会在应对训练数据之外的新颖或不常见情况时遇到困难,导致性能受到影响。在不同设备和平台上实现无缝集成可能会面临挑战,因为硬件能力、软件限制和可访问性要求各不相同。

在项目主页列出的计划清单上,目前还有几项目标尚未达成,其中就有小编每次在新的对话系统上都要体验的中文交互,目前该系统应该还是暂不支持中文问题,不过这貌似没办法,由于多模态数据集多是基于英文的,英汉互译较为浪费线上资源和处理时间,估计汉化之路还是需要一段时间的。

以上就是Prompt都不需要了,动动手就能玩多模态对话系统,iChat来啦!的详细内容,更多请关注易企推科技其它相关文章!


本文地址:网络知识频道 https://www.hkm168.com/jiqiao/1149589.html,易企推百科一个免费的知识分享平台,本站部分文章来网络分享,本着互联网分享的精神,如有涉及到您的权益,请联系我们删除,谢谢!


网络知识
小编:小易整编
相关文章相关阅读
  • 用U盘轻松实现一键重装系统的小白装机教程

    用U盘轻松实现一键重装系统的小白装机教程

    在现代社会,电脑已经成为人们生活中不可或缺的工具。然而,由于各种原因,我们有时候需要重装电脑系统来解决一些问题或提升性能。但是,对于一些小白用户来说,重装系统可能是一项困难的任务。因此,本文将介绍一款小白一键重装系统的u盘装机教程,帮助小白...

  • 某台微机安装的是64位操作系统中,64位指的是什么

    某台微机安装的是64位操作系统中,64位指的是什么

    某台微机安装的是64位操作系统中,64位指的是cpu的字长,即cpu每次能处理64位二进制数据。字长是cpu的主要技术指标之一,指的是cpu一次能并行处理的二进制位数,字长总是8的整数倍,通常pc机的字长为32位,64位。本教程操作环境:w...

  • 什么是Linux系统中nc命令?nc命令的用法详解

    什么是Linux系统中nc命令?nc命令的用法详解

    这篇文章主要介绍了linux系统中nc命令的基本用法,nc命令非常之强大,这里先简单介绍它用来作端口扫描以及文件传输等的基础使用。功能说明:功能强大的网络工具,在网络工具中有“瑞士军刀”美誉,其有Windows和Linux的版本。因为它短小...

  • Win10系统关闭msiexec.exe进程怎么操作

    Win10系统关闭msiexec.exe进程怎么操作

      win10系统关闭msiexec.exe进程怎么操作?在win10系统当中,msiexec.exe是系统的程序文件,主要是用来给windows安装新程序,当我们使用update安装更新或者安装一些软件的时候,msiexec.exe经常就...

  • 在Win11系统上安装声卡驱动的解决方案

    在Win11系统上安装声卡驱动的解决方案

    一电脑声卡驱动无法安装,先卸载已经安装的驱动,然后重新安装卸载本机的声卡驱动对着我的电脑点右键,选择‘属性’,弹出属性对话框选择“硬件”标签找到“声音视频和游戏控制器”,点左边加号,列出声卡相关的驱动。方法一:1、首先,按键盘上的【wi...

  • 手把手教你笔记本电脑重装系统

    手把手教你笔记本电脑重装系统

    笔记本电脑在使用中,如果不小心安装了病毒文件导致电脑中毒,使用杀毒软件都无法解决的情况下,那么就只能考虑给笔记本重装系统修复了。不过很多人不清楚具体怎么重装系统,下面就给大家讲下笔记本电脑重装系统的方法教程。 工具/原料:系统版本:wind...

  • win10如何切换双系统?

    win10如何切换双系统?

    许多用户为了体验多元化的操作系统,便会选择在个人电脑上安装两款系统。然而,部分已成功安装win10双系统的用户对于如何实现系统切换仍存疑惑。针对此问题,小编在此为广大用户整理出切换系统的详细步骤。win10双系统切换按哪个键:方法一、快捷...

  • Win10专业版系统文件夹选项在哪里查看

    Win10专业版系统文件夹选项在哪里查看

        win10专业版系统文件夹选项在哪里查看?越来越多的朋友将自己的电脑升级成了win10专业版系统,不过win10专业版系统的界面风格对比win7旗舰版变化很大,win7旗舰版系统用户熟悉的文件选项都有所改变,那么win10专业...

  • 周排行
  • 月排行
  • 年排行

精彩推荐