魔搭社区每周速递(7.13-7.19)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 魔搭社区每周速递(7.13-7.19)

魔搭ModelScope本周带来:

25个模型:LlaMA 2模型、PolyLM多语言文本生成模型、Semantic Speaker Turn Detection 模型、孙思邈中文医疗大模型 等;

6个数据集:ms_hackathon_23_agent_train_dev、CValues-Comparison 中文大模型价值观比较数据集等;

3个创新应用:音视频转录、RWKV-4-Music、Fugl-Meyer康复测评;

3篇文章:ChatGLM2-6B模型发布及魔搭最佳实践、Stable Diffusion模型魔搭最佳实践:训一只你的萌柯基、LLaMA 2系列来啦!内含魔搭最佳实践;

精选模型推荐

LLaMA 2模型

Llama 2 是一种使用优化的 Transformer 架构的自回归语言模型。调整后的版本使用监督微调(SFT)和带有人类反馈的强化学习(RLHF)来适应人类对有用性和安全性的偏好。

示例代码

import torch
from modelscope import snapshot_download, Model
from modelscope.models.nlp.llama2 import Llama2Tokenizer
model_dir = snapshot_download("modelscope/Llama-2-7b-ms", revision='v1.0.1', 
                              ignore_file_pattern = [r'\w+\.safetensors'])
model = Model.from_pretrained(model_dir, device_map='auto', torch_dtype=torch.float16)
tokenizer = Llama2Tokenizer.from_pretrained(model_dir)
prompt = "Hey, are you conscious? Can you talk to me?"
inputs = tokenizer(prompt, return_tensors="pt")
# Generate
generate_ids = model.generate(inputs.input_ids, max_length=30)
print(tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0])


image.png

PolyLM多语言文本生成模型

PolyLM是一个通晓多语言语言的大规模语言模型,涵盖中文、英文、西班牙语、法语、德语、俄语、葡萄牙语、意大利语、阿拉伯语、日语、韩语、泰语、越南语和印尼语等18个语言。该模型可以应用于对话问答、文本生成、机器翻译和情感分析等领域,能够自动生成高质量的多语言文本,从而为跨语言、文化的交流提供便利。

通过 Transformers 加载

from transformers import AutoModelForCausalLM, AutoTokenizer, LlamaTokenizer
from pathlib import Path
ckpt_path = Path("damo/nlp_polylm_13b_text_generation")
tokenizer = LlamaTokenizer.from_pretrained(str(ckpt_path))
model = AutoModelForCausalLM.from_pretrained(
    str(ckpt_path),
    device_map="auto",
)
s = """候选属性:鞋跟高度, 下摆类型, 工艺, 裙长, 腰型, 图案, 开衩类型, 风格, 领型, 版型, 鞋帮高度, 裤长, 裤型, 适用季节, 厚度, 弹性, 形状, 开口深度, 靴筒高度, 颜色, 闭合方式, 材质, 袖长, 鞋头款式, 袖型, 口袋类型
商品标题:HC圆领拼接连衣裙
NER抽取结果:领型=圆领,风格=拼接
商品标题:暗格格纹纹路搭配磨砂表面
NER抽取结果:图案=格纹,材质=磨砂
商品标题:充满童趣的史努比造型以提花工艺呈现于杏色衣身
NER抽取结果:工艺=提花,颜色=杏色
商品标题:HAZZYS修身羊毛衫
NER抽取结果:"""
inputs = tokenizer(s, return_tensors="pt")
generate_ids = model.generate(
    inputs.input_ids, 
    attention_mask=inputs.attention_mask, 
    do_sample=True, 
    max_new_tokens=128, 
    top_k=10, 
    top_p=0.9, 
    temperature=0.7, 
    repetition_penalty=1.0, 
    num_return_sequences=5)
decoded = tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
print(f">>> {decoded}")

孙思邈中文医疗大模型

Sunsimiao是由baichuan-7B在10w条高质量的中医药数据中通过qlora微调而得, 后续将收集更多数据, 扩充模型能力, 会不断迭代更新。

示例代码

from modelscope.pipelines import pipeline
from modelscope.utils.constant import Tasks
pipe = pipeline(task=Tasks.text_generation, model='AI-ModelScope/Sunsimiao', model_revision='v1.0.0')
query = '小孩发烧了怎么办?'
prompt="Below is an instruction that describes a task. Write a response that appropriately completes the request."
prompt+="### Instruction:\n{}\n\n### Response:\n".format(query)
result = pipe(prompt)
print(result)

精选应用推荐

RWKV-4-Music

链接:https://modelscope.cn/studios/AI-ModelScope/RWKV-4-Music/summary

介绍:RWKV-4-Music属于音乐的生成模型 . RWKV由100% RNN语言模型驱动. 是迄今为止唯一可以在质量和缩放上匹配Transformer的RNN, 同时速度更快, 节省VRAM

image.png

音视频转录

链接:https://modelscope.cn/studios/glt3953/app-audio_video_transcribe/summary

介绍:您只需要上传一段音频或视频文件,我们的服务会快速对其进行语音识别,然后生成相应的文字和字幕。这样,您就可以轻松地记录下重要的语音内容,或者为视频添加精准的字幕。现在就来试试我们的音视频转录服务吧,让您的生活和工作更加便捷!

image.png

Fugl-Meyer康复测评

链接:https://modelscope.cn/studios/wanghongsheng/test_space3/summary

介绍:针对Fugl-Meyer量表中总结出了五套测试动作,对输入视频进行测试项预测,并返回测试评分

image.png

相关文章
|
人工智能 自然语言处理 安全
国内首发,阿里云魔搭社区上架百川智能Baichuan 2系列模型
国内首发,阿里云魔搭社区上架百川智能Baichuan 2系列模型
1032 0
|
24天前
|
人工智能 自然语言处理 文字识别
魔搭社区每周速递(8.18-8.24)
176个模型、35个数据集、85个创新应用、5篇应用文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
魔搭社区每周速递(7.20-7.26)
174个模型、44个数据集、70个创新应用、5篇应用文章
|
10天前
|
机器学习/深度学习 存储 自然语言处理
魔搭社区每周速递(9.1-9.7)
182个模型、211个数据集、38个创新应用、6篇应用文章
魔搭社区每周速递(9.1-9.7)
|
17天前
|
编解码 人工智能 自然语言处理
魔搭社区每周速递(8.25-8.31)
326个模型、82个数据集、71个创新应用、5篇应用文章
魔搭社区每周速递(8.25-8.31)
|
1月前
|
存储 人工智能 调度
魔搭社区每周速递(7.27-8.3)
155个模型、123个数据集、68个创新应用、5篇应用文章
|
1月前
|
人工智能 大数据
实践证明+奖学金+项目履历!魔搭社区联合主办的AI 夏令营来了
2024 AI夏令营,由Datawhale主办,联合科大讯飞、阿里云天池、蚂蚁集团、英特尔、浪潮信息、魔搭社区等国内外顶尖人工智能企业。
|
1月前
|
人工智能 自然语言处理 文字识别
魔搭社区每周速递(8.11-8.17)
607个模型、53个数据集、68个创新应用、5篇应用文章
|
1月前
|
人工智能 编解码 自然语言处理
魔搭社区每周速递(8.4-8.10)
315个模型、36个数据集、62个创新应用、5篇应用文章
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
魔搭社区每周速递(7.14-7.19)
404个模型、133个数据集、86个创新应用、7篇应用文章