❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
Halo:开源的DIY健康追踪项目
Halo是开源的DIY健康追踪项目,基于低成本的智能戒指和开源软件,让用户构建自己的私人健康监测应用。Halo支持活动追踪、心率监测、睡眠分析等功能,且完全尊重用户隐私。基于Halo,用户能深入了解自己的健康数据,享受定制化的健康追踪体验。项目代码开源,鼓励社区参与和贡献,推动健康追踪技术的普及和创新。
资源
- GitHub仓库:https://github.com/cyrilzakka/Halo
CAD-MLLM:计算机辅助设计CAD模型生成系统
CAD-MLLM是由上海科技大学、Transcengram、DeepSeek AI和香港大学共同推出的计算机辅助设计(CAD)模型生成系统。该系统根据用户的多种输入(如文本描述、图像、点云或这些输入的组合)生成参数化的CAD模型。系统用命令序列和大型语言模型(LLMs)对齐和处理多模态数据,构建完整的CAD模型。CAD-MLLM引入一个名为Omni-CAD的大规模多模态数据集,及新的评估指标,全面评估生成模型的拓扑质量和表面封闭程度。CAD-MLLM在性能上超越现有方法,展现出对数据缺陷的高度鲁棒性。
资源
- 项目官网:https://cad-mllm.github.io/
- arXiv技术论文:https://arxiv.org/pdf/2411.04954
MagicClay:文本引导3D模型局部雕刻
MagicClay 是 Adobe 推出的3D建模工具,结合网格和有向距离场(SDF)技术,支持艺术家基于文本提示对3D模型的特定部分进行雕刻,同时保持模型的其他区域不变。MagicClay 支持生成具有纹理的三维模型,能非破坏性地编辑局部网格,让艺术家用文本提示为基础,对3D模型进行更直观和更精细的编辑。MagicClay 将文本到图像的生成能力转化为艺术家在迭代工作流程中使用的实际建模工具。
资源
- 项目官网:https://amirbarda.github.io/MagicClay.github.io
- GitHub仓库:https://github.com/amirbarda/MagicClay
- arXiv技术论文:https://arxiv.org/pdf/2403.02460
FLUX Tools:模型工具套组
FLUX Tools是黑森林实验室推出的一套模型工具,能增强基础文本到图像模型FLUX.1的控制性和可操作性。FLUX Tools包括FLUX.1 Fill(图像修复和扩展)、FLUX.1 Depth(基于深度图的结构引导)、FLUX.1 Canny(基于Canny边缘的结构引导)和FLUX.1 Redux(图像混合和重新创造)。工具基于提供文本描述和掩码,支持用户精确编辑和扩展真实及生成的图像,增强图像变化和重构能力。FLUX Tools作为FLUX.1 [dev] 模型系列中的开放可访问模型推出,在BFL API中作为FLUX.1 [pro]的补充使用。
资源
- 项目官网:https://blackforestlabs.ai
- GitHub仓库:https://github.com/black-forest-labs/flux
- HuggingFace模型库:https://huggingface.co/black-forest-labs
AlphaQubit:量子错误解码器
AlphaQubit是谷歌推出基于AI技术的量子错误解码器,用深度学习架构Transformers识别和纠正量子计算中的错误。AlphaQubit基于精确的误差识别,助力量子计算机实现长时间、大规模的可靠计算,对于推动量子计算的实用化具有重要意义。AlphaQubit在谷歌的Sycamore量子处理器上经过训练和测试,展现出比现有技术更高的错误识别精度,为量子纠错领域树立新的标准。
资源
- 项目官网:https://blog.google/technology/google-deepmind/alphaqubit-quantum-error-correction
- 技术论文:https://www.nature.com/articles/s41586-024-08148-8
LaTRO:提升LLMs复杂推理能力的框架
LaTRO(Latent Reasoning Optimization)是先进的框架,提升大型语言模型(LLMs)在复杂推理任务中的表现。基于将推理过程类比为从潜在分布中采样,用变分推断方法进行优化,LaTRO让模型自我改进,增强生成和评估推理路径的能力。这一方法无需依赖外部反馈或奖励机制,有效解锁并进一步激发预训练语言模型内在的推理潜能,推动构建更智能、更自主的问题解决系统。
资源
- GitHub仓库:https://github.com/SalesforceAIResearch/LaTRO
- arXiv技术论文:https://arxiv.org/pdf/2411.04282
ReCapture:视频处理技术
ReCapture是谷歌和新加坡国立大学推出的视频处理技术,能从单一用户提供的视频中生成具有新相机轨迹的新视频。ReCapture用多视图扩散模型或基于深度的点云渲染生成带有新相机轨迹的噪声锚视频,采用掩码视频微调技术,将锚视频转换成干净、时间一致的重新角度化视频,保留原始视频中的场景运动,从新角度展现场景。ReCapture能合理地想象出原始视频中不可见的场景部分。
资源
In-Context LoRA:基于DiTs的图像生成框架
In-Context LoRA是阿里巴巴通义实验室推出的基于扩散变换器(DiTs)的图像生成框架,用模型的内在上下文学习能力,最小化调整激活模型的上下文生成能力。这种方法无需修改原始模型架构,只需对训练数据进行微调,就能适应多样的图像生成任务,有效简化训练过程并减少对大量标注数据的依赖,且保持高生成质量。In-Context LoRA在多个实际应用场景中表现出色,能生成连贯一致且高度符合提示的图像集合,支持条件图像生成。
资源
- 项目官网:https://ali-vilab.github.io/In-Context-LoRA-Page
- GitHub仓库:https://github.com/ali-vilab/In-Context-LoRA
- arXiv技术论文:https://arxiv.org/pdf/2410.23775
TIP-I2V:超170万的大规模真实文本和图像提示数据集
TIP-I2V是大规模真实文本和图像提示数据集,用在图像到视频生成领域。TIP-I2V包含超过170万独特的用户文本和图像提示,及五种SOTA图生视频模型生成的相应视频。数据集能推动更好、更安全的图像到视频模型的发展,帮助研究人员分析用户偏好,评估模型性能,解决图像到视频模型引起的错误信息问题。
资源
- 项目官网:https://tip-i2v.github.io
- GitHub仓库:https://github.com/WangWenhao0716/TIP-I2V
- HuggingFace模型库:https://huggingface.co/datasets/WenhaoWang/TIP-I2V
- arXiv技术论文:https://arxiv.org/pdf/2411.04709
StableV2V:视频精准编辑项目
StableV2V是中国科技大学推出的开源视频编辑项目,基于文本、草图、图片等输入实现视频中物体的精准编辑和替换。项目用形状一致的编辑范式,基于三个主要组件:Prompted First-frame Editor(PFE)、Iterative Shape Aligner(ISA)和Conditional Image-to-video Generator(CIG),确保编辑内容与原始视频动作和深度信息一致,生成自然流畅的编辑视频。
资源
- 项目官网:https://alonzoleeeooo.github.io/StableV2V
- GitHub仓库:https://github.com/AlonzoLeeeooo/StableV2V
- HuggingFace模型库:https://huggingface.co/AlonzoLeeeooo/StableV2V
- arXiv技术论文:https://arxiv.org/pdf/2411.11045
JoyVASA:音频驱动的数字人头项目
JoyVASA是京东健康国际公司开源的音频驱动的数字人头项目,基于扩散模型技术,根据音频信号生成与音频同步的面部动态和头部运动。JoyVASA能实现人物的唇形同步和表情控制,还扩展到动物头像的动画生成,在多语种支持和跨物种动画化方面具有广泛的应用潜力。
资源
- 项目官网:https://jdh-algo.github.io/JoyVASA
- GitHub仓库:https://github.com/jdh-algo/JoyVASA
- HuggingFace模型库:https://huggingface.co/jdh-algo/JoyVASA
- arXiv技术论文:https://arxiv.org/pdf/2411.09209
Open Interpreter:让语言模型运行代码的终端工具
Open Interpreter 是一个让语言模型运行代码的工具。通过一个类似 ChatGPT 的界面,用户可以在终端中与 Open Interpreter 互动,执行各种编程任务。这为用户提供了一个自然语言接口,使其能够轻松地利用计算机的通用能力。
资源
- 项目官网:https://docs.openinterpreter.com/
- GitHub 仓库:https://github.com/OpenInterpreter/open-interpreter
- 官方文档:https://docs.openinterpreter.com/getting-started/introduction
AI Shell:将 AI 助手引入命令行的 CLI 工具
AI Shell 是一款将 AI 集成到命令行中的 CLI 工具,将人工智能的强大能力直接带到了命令行环境中。它设计用于帮助用户在命令行中获取各种 AI 助手的命令建议,从而提高生产力。AI Shell 通过多代理框架提供了丰富的功能和灵活的使用模式。每个代理都是一个库,可以用来与不同的 AI 模型或辅助提供者进行对话式的交互。
资源
- 项目官网:https://github.com/PowerShell/AIShell
- GitHub 仓库:https://github.com/PowerShell/AIShell
- 安装指南:https://learn.microsoft.com/powershell/utility-modules/aishell/install-aishell?view=ps-modules&tabs=windows
- API 文档:https://learn.microsoft.com/powershell/utility-modules/aishell/overview
- 贡献指南:https://github.com/PowerShell/AIShell/blob/main/docs/CONTRIBUTING.md
- 隐私声明:https://www.microsoft.com/en-us/privacy/privacystatement?msockid=1fe60b30e66967f13fb91f29e73f661a
❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦