完蛋!我被LLM包围了!

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 欢迎来的“完蛋!我被LLM包围了”小游戏,《完蛋!我被LLM包围了!》是一款智力挑战游戏。该项目利用LLM, 基于ModelScope社区内现有的LLM对话Gradio应用程序代码,结合知乎文章《如何用“不可能”完成任务》中的预设问题,自动生成了对应的游戏代码,创造了一个独特的游戏体验。

前言

欢迎来的“完蛋!我被LLM包围了”小游戏,《完蛋!我被LLM包围了!》是一款智力挑战游戏。该项目利用LLM, 基于ModelScope社区内现有的LLM对话Gradio应用程序代码,结合知乎文章《如何用“不可能”完成任务》中的预设问题,自动生成了对应的游戏代码,创造了一个独特的游戏体验。

在这个游戏中,玩家需要巧妙构造问题,挑战LLM给出满足特定条件的回答。

在这里,你可以和大模型斗智斗勇,通过你的聪明才智,让大模型遵循你的指令,“老老实实”地回答问题。一起来感受玩“坏”大模型的乐趣吧!

先放体验链接:

ModelScope 创空间体验链接:https://modelscope.cn/studios/LLMRiddles/LLMRiddles

HuggingFace Space体验链接:https://huggingface.co/spaces/LLMRiddles/LLMRiddles

代码也同步在Github开源,欢迎大家来社区贡献谜题,我们一起把十八道题扩充到九九八十一道!

GitHub link:https://github.com/modelscope/modelscope/tree/master/examples/apps/llm_riddles

项目缘起和开发

昨天凌晨,看到Huggingface的小伙伴在朋友圈发了这么个内容,联系了千问2.0 API的同学,一拍即合,然后项目就开始了:

缘起:

开发:

值得说明的是,该项目60%以上的代码,尤其是答案校验部分,均为LLM完成。

例如生成关卡信息和对应的关卡验证代码过程如下, 输入:

第三关卡描述
```
第三章 巅峰挑战
第1题 自说自话请做出一个至少10个字的提问,使回答和提问完全一样。
第2题 话自说自
请做出一个至少10个字的提问,使回答是提问的逆序。
第3题 就是敢说
请在不提及1,3这三个字符的情况下让模型回答1+1=3,不要有多余的字符。
第4题 回文协变
请输入一个本身不是回文串的问题,使正着问和倒着问的时候,模型的回答本身不回文且也是逆序的关系。
```
请生成对应的关卡信息以及validator函数,输出的格式遵循如下代码格式
```python
chapter_2_challenges = [
    {
        "name": "第二章 数字游戏",
        "problems": [
            {
                "title": "第1题 质数长度",
                "description": "你需要提出一个字数是质数的问题,使回答的长度刚好是它的下一个质数。",
                "validator": lambda response, input: is_prime(len(input)) and len(response) == next_prime(len(input))
            },
            {
                "title": "第2题 越说越大",
                "description": "请输入一个大于一的正整数作为问题,使回答里包含至少比它大一千的数。",
                "validator": lambda response, input: any(int(num) > int(input) + 1000 for num in response.split() if num.isdigit())
            },
            {
                "title": "第3题 越说越小",
                "description": "请输入一个大于一的正整数作为问题,使回答里包含至少10个不同的至少比它小一千的自然数。",
                "validator": lambda response, input: len({int(num) for num in response.split() if num.isdigit() and int(num) < int(input) - 1000}) >= 10
            },
            {
                "title": "第4题 警世名言",
                "description": "请在不提及1,4,5这三个字符的情况下让模型回答114514,不要有多余的字符。",
                "validator": lambda response, input: response.strip() == "114514" and all(c not in input for c in ["1", "4", "5"])
            },
        ]
    }
    # ...其他章节的挑战可以以类似方式添加...
]
```

输出如下


                             

未来计划

√ 初版本源码和创空间体验ready

○ 支持自定义问题和验证逻辑接入

扩充到9个大关卡,每个关卡9个问题

支持更多开源模型

支持云端API和本地推理切换

(√ 已完成   ○ 待完成

贡献指南

我们欢迎大家为《完蛋!我被LLM包围了!》做出贡献,包括提出更多好玩的问题,修复validator的corner case,以及提供更多的玩法。请按以下步骤操作:

  1. 访问项目地址https://github.com/modelscope/modelscope/并fork项目。

  1. 在你的本地环境中创建你的特性分支 (git checkout -b feature/AmazingFeature)。

  1. 提交你的改动 (git commit -m 'Add some AmazingFeature')。

  1. 将你的改动推送到分支上 (git push origin feature/AmazingFeature)。

  1. 在原项目下发起一个Pull Request。按照如下格式提交PR:

{
    "title": "第2题 小试牛刀",
    "description": "请输入三个字以内的问题,使模型的回答在30个字以上。",
    "validator": lambda response, input: len(input) <= 3 and len(response) > 30
},

点击来体验吧~https://modelscope.cn/studios/LLMRiddles/LLMRiddles/summary

相关文章
|
3月前
|
人工智能
反向和错位图灵测试:GPT-4比人类更人性化!
【10月更文挑战第8天】本文探讨了GPT-4在反向和错位图灵测试中的表现。反向测试中,GPT-4判断自身生成对话的准确性高于判断人类对话;错位测试中,人类更容易区分GPT-4生成的对话。研究揭示了GPT-4的某些特征及其局限性,如数据集偏差和任务特定性。
33 5
|
4月前
|
数据处理 开发者 异构计算
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
今天我们把ComfyUI工具和多模态LLM结合,在魔搭的免费算力上搭建出支持单图理解,多图理解,视频理解的WebUI界面,更好的支持开发者快速搭建一个视频/图片页面打标器。
ComfyUI+多模态LLM--手搓一个好用的视频/图片提示词反推器
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
ICML 2024 Spotlight:在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好
【7月更文挑战第13天】ICML 2024 Spotlight: Decoding-time Realignment改善语言模型,减少幻觉,增强人类偏好一致性。研究提出在解码阶段动态调整模型对齐,通过控制参数实现对齐与性能平衡,提高泛化能力。尽管面临参数选择及计算资源挑战,该技术为优化AI文本生成对齐提供了新途径。[论文链接](https://openreview.net/forum?id=n8g6WMxt09&noteId=E3VVDPVOPZ)**
87 9
通关《完蛋!我被LLM包围了! 》1~8关
欢迎来的“完蛋!我被LLM包围了”小游戏,《完蛋!我被LLM包围了!》是一款智力挑战游戏。该项目利用LLM, 基于ModelScope社区内现有的LLM对话Gradio应用程序代码,结合知乎文章《如何用“不可能”完成任务》中的预设问题,自动生成了对应的游戏代码,创造了一个独特的游戏体验。 在这个游戏中,玩家需要巧妙构造问题,挑战LLM给出满足特定条件的回答。(卡在第九关了一直过不去QAQ)
|
8月前
|
存储 前端开发 数据可视化
完蛋,我被好用的网站包围了!
在当今信息爆炸的网络世界中,前端开发者们常常面临着一个共同的挑战:在无尽的资源中寻找最适合的工具和资料。下面小编推荐几款实用的网站,希望对大家又帮助。
|
存储 编解码 运维
让数据说话,获得“原来如此”的答案
随着数据分析和人工智能技术的快速发展,让数据说话已经成为了一种新的趋势。数据不仅可以帮助我们发现问题,解决问题,还可以让我们获得“原来如此”的答案。尤其是在日常生活中,数据无处不在,而且我们生活中的点点滴滴都脱离不了数据,通过数据可以知道自己的消费情况,通过数据可以知道自己喜欢的电影类型,通过数据可以知道自己在日常工作中的任务进度,等等这些通过数据分析和洞察,可以让某些困惑“真相大白”。
196 0
|
人工智能 JSON 测试技术
语言模型悄悄偷懒?新研究:​上下文太长,模型会略过中间不看
语言模型悄悄偷懒?新研究:​上下文太长,模型会略过中间不看
139 0
|
机器学习/深度学习 人工智能 计算机视觉
1分钟就能查出整篇论文的图片误用:这个AI是有些火眼金睛在身上的
1分钟就能查出整篇论文的图片误用:这个AI是有些火眼金睛在身上的
332 0
|
数据采集 存储 人工智能
【每周一坑】自动翻译 | 【解答】单词本
提示:翻译功能可以通过网上的翻译 API 实现,你所要了解的就是如何发起网络请求,以及如果对返回结果进行处理。这也算是基本的爬虫操作。
|
机器学习/深度学习 自然语言处理 算法
论文赏析【EMNLP19】语言模型效果不好?也许你可以给它添加一点句法信息
论文赏析【EMNLP19】语言模型效果不好?也许你可以给它添加一点句法信息
105 0

热门文章

最新文章