首页人工智能‌ 正文

AI精选（171）-人工智能领域内的最新进展：字节跳动的新项目通过音频驱动静态照片生成动态视频

人工智能‌ 3个月前 (08-01) 25

　　并且生成头部和面部的自然动作，如表情变化、头部移动等。模型不仅支持各种音频和视觉风格，还能够生成高度逼真的细节，包括面部的微表情、眉毛和眼睛的细微变化以及头部的自然运动。它还支持生成非言语动作（如叹息、情感驱动的面部表情），使动画更加生动。效果非常不错... Loopy 摒弃了传统音频驱动生成方法中需要手动设定空间运动模板的限制。通过自主学习音频中的运动模式。可以自动生成逼真的肖像动画，无需人为干预，提升了生成过程的效率和灵活性。

　　用于开发安全人工智能系统。此次融资由Andreessen Horowit、红杉资本和DST Global等知名投资公司领投，Nat Friedman的NFDG投资公司也参与其中。 SSI目前仅有约10名员工，计划利用这笔资金扩展计算能力并招聘顶尖人才。该公司拒绝分享其估值，但知情人士表示，其估值为50亿美元。

　　该模型名为临床组织病理学成像评估基础（CHIEF），在检测癌症、确定肿瘤来源和预测患者预后方面，比现有的深度学习模型有效性高出36%。该模型由哈佛医学院的研究人员开发，旨在更广泛地应用于不同的诊断任务，而不是像现有的癌症深度学习模型那样只执行特定功能。

　　CHIEF模型通过超过1500万张病理图像进行了训练，从而提高了其在诊断具有非典型特征的癌症时的可靠性。研究人员使用超过6万张高分辨率的组织切片图像，进一步开发了该AI模型，并对其进行了特定的遗传和临床预测任务的微调。该模型在来自全球24家医院和患者群体的19,400多张图像上进行了测试，并将研究结果发表在《自然》期刊上。

　　它设计可以与目标分子结合的新型蛋白质例如，这可以促进药物设计，为癌症、自身免疫性疾病等疾病创造更有针对性、副作用更小的治疗方法。

　　该公司表示计划在明年初推出其自动驾驶辅助技术，并准备下个月在加利福尼亚推出其“Cybercab”机器人出租车。

　　特斯拉在CEO埃隆·马斯克的社交媒体平台上发布了投资者路线图，指出其高级自动驾驶软件（FSD）预计将在明年获得欧洲和中国的最终监管批准后上线。马斯克强调了AI技术的利润潜力，特别是在特斯拉计划为全球近700万辆电动车提供自动驾驶软件的背景下。

　　特斯拉的资本支出今年可能会增加到约100亿美元，主要用于投资AI技术和超级计算机Dojo，Dojo专注于计算机视觉处理和识别。特斯拉将在下个月的洛杉矶举行发布会，正式揭开其首款机器人出租车“Cybercab”的面纱。原计划在八月初发布的机器人出租车因车辆改进而推迟。

　　是专为编码任务设计的小参数模型，有1.5B和9B两种参数，在代码生成、理解、调试等方面效果显著！可以在端侧部署。支持 52 种主要编程语言，可以处理长达 128K tokens 的上下文，在复杂项目级代码理解和生成中具有显著优势。 Yi-Coder-9B 的表现优于其他 10B 参数以下的模型，如 CodeQwen1.5 7B 和 CodeGeex4 9B，甚至能够与 DeepSeek-Coder 33B 相媲美。

　　Phind-405B 在 HumanEval 上的得分为 92%，与 Claude 3.5 Sonnet 相当。我们对它在实际任务中的表现特别满意，特别是在设计和实施 Web 应用方面。我们对技术主题的关注也使 Phind 能够很好地回答所有问题。我们认为，我们新的 Phind Instant 模型（与 Phind-405B 的训练方式类似）是快速获得互联网来源答案的最佳方式。

人工智能是什么行业和学历人工智能是指什么专业人工智能是什么的英文人工智能是什么?人工智能属于什么专业类别的专业

人工智能是什么

sqlhack 30932 0

上一篇
【光明论坛】推动人工智能健康有序发展
下一篇
專家：以國際視野驅動人工智能人才體系升級

AI精选（171）-人工智能领域内的最新进展：字节跳动的新项目通过音频驱动静态照片生成动态视频

相关推荐