必威HunyuanDiT-v1.1 是一个先进的多分辨率扩散变换器模型,擅长处理中英文文本,实现精细的语言理解与图像生成。该模型采用预训练的 VAE 压缩图像,结合 CLIP 和 T5 编码器处理文本,支持多轮对话式图像创作。在 Hugging Face 平台上开源,提供了包括 TensorRT 和知识蒸馏在内的多种加速方案,以及在 ComfyUI 和 Diffusers 中的集成使用指南。
前 NASA 人工智能研究员兼 Age of Learning 首席执行官 Alex Galvagni 表示,人工智能技术的进步使得教育领域能够提供个性化、适应性强的学习体验。AI 在 1950 年代就已经开始研究,后来在太空航天和医学领域取得了突破,如协助模拟航天器对接程序和大脑手术。Galvagni 认为,AI 技术的最新应用将极大地提升教育质量,为每个孩子量身定制课程内容,并提供具体有效的反馈。Age of Learning 的产品旨在协助教师,而非替代他们,通过数据分析帮助教师更好地满足每个学生的个性化需求。
在 AI 领域,大模型厂商们展开了一场前所未有的价格战,40 天内,DeepSeek、智谱、字节跳动等大厂纷纷宣布模型价格大幅降低,甚至有免费提供。这场战役旨在推动 API 调用量增长,促进云服务销售,同时也反映了技术成熟和市场格局的清晰。然而,价格战也引发了一些大模型创企的资金链断裂,业界竞争加剧,创企需寻找新的商业模式以适应市场变化。
复旦大学人工智能实验室和上海人工智能实验室的研究人员开发了一种名为MCT Self-Refine (MCTSr)的算法,将大语言模型与蒙特卡洛树(MCTS)搜索结合起来,以增强模型在数学推理任务上的性能,尤其是奥林匹克级别的数学问题。 MCTS在AlphaGo中的应用展示了其强大性能 这种算法让智能体可以像人类一样通过试错法学习决策和推理必威。 人类在学习新技能或解决复杂问题时,通常会使用试错法。例如,学习骑自行车时,人们会反复尝试保持平衡,摔倒后总结经验,直到能够熟练骑车。同样,智能体通过试错法逐渐改进其决策和推理能力。 通过反复尝试不同的方法和策略,智能体能够不断改进其性能,最终达到解决复杂问题的目标。 具体来说,在论文中提到的MCTS算法中,智能体通过不断探索不同的解答路径、模拟结果、反向传播反馈信息,逐步优化其决策和推理能力,从而在复杂数学问题上取得更好的表现。
通过输入音频让面部照片开始说话,并且有对于的表情。看起来效果很自然。 采用端到端的扩散范式,引入了分层的音频驱动视觉合成模块,以提高音频输入与视觉输出之间的对齐精度,包括唇部、表情和姿势的运动。 分层音频驱动的视觉合成模块提供了对表情和姿势多样性的自适应控制,更有效地实现了针对不同身份的个性化定制。
Euryale-v2.1 是一个 706 亿参数的高级模型,继 Stheno v3.2 之后,它采用了相同的数据集进行了 LoRA 微调,并在 8x H100 SXMs 上进行了训练。该模型展现出更佳的提示遵循能力、更准确的解剖学 / 空间感知、更好的自定义格式和回复格式适应性,以及在角色扮演中的开放性。
Oumuamua-7b-instruct-v2 是一个基于 Swallow-MS-7b-v0.1 的合并语言模型,专注于理解用户意图、提供有效回答、增强专业知识、提升角色扮演和多轮对话能力。通过合并多个模型,它在创意写作、角色扮演和机器翻译等任务上表现出色。详细的合并配置和使用示例,使其成为一个强大且实用的工具。
NVIDIA 宣布发布 Nemotron-4 340B,一系列开源模型,为开发者提供免费、可扩展的解决方案,用于生成大型语言模型(LLM)的高质量合成数据。这些模型支持通过 NVIDIA NeMo 框架进行定制和优化,并配合 TensorRT-LLM 库实现高效推理。Nemotron-4 340B 的指令模型和奖励模型分别用于生成多样化的合成数据和筛选高质量响应,提升 LLM 的性能和安全性。这一推动将有助于在医疗、金融等多个行业中推广和应用高效、安全的 LLM 技术。