AI精选(171)-人工智能领域内的最新进展:字节跳动的新项目通过音频驱动静态照片生成动态视频

人工智能‌ 25
  并且生成头部和面部的自然动作,如表情变化、头部移动等。 模型不仅支持各种音频和视觉风格,还能够生成高度逼真的细节,包括面部的微表情、眉毛和眼睛的细微变化以及头部的自然运动。 它还支持生成非言语动作(如叹息、情感驱动的面部表情),使动画更加生动。 效果非常不错... Loopy 摒弃了传统音频驱动生成方法中需要手动设定空间运动模板的限制。 通过自主学习音频中的运动模式。可以自动生成逼真的肖像动画,无需人为干预,提升了生成过程的效率和灵活性。

  并且生成头部和面部的自然动作,如表情变化、头部移动等。 模型不仅支持各种音频和视觉风格,还能够生成高度逼真的细节,包括面部的微表情、眉毛和眼睛的细微变化以及头部的自然运动。 它还支持生成非言语动作(如叹息、情感驱动的面部表情),使动画更加生动。 效果非常不错... Loopy 摒弃了传统音频驱动生成方法中需要手动设定空间运动模板的限制。 通过自主学习音频中的运动模式。可以自动生成逼真的肖像动画,无需人为干预,提升了生成过程的效率和灵活性。

  用于开发安全人工智能系统。 此次融资由Andreessen Horowit、红杉资本和DST Global等知名投资公司领投,Nat Friedman的NFDG投资公司也参与其中。 SSI目前仅有约10名员工,计划利用这笔资金扩展计算能力并招聘顶尖人才。 该公司拒绝分享其估值,但知情人士表示,其估值为50亿美元。

  该模型名为临床组织病理学成像评估基础(CHIEF),在检测癌症、确定肿瘤来源和预测患者预后方面,比现有的深度学习模型有效性高出36%。该模型由哈佛医学院的研究人员开发,旨在更广泛地应用于不同的诊断任务,而不是像现有的癌症深度学习模型那样只执行特定功能。

  CHIEF模型通过超过1500万张病理图像进行了训练,从而提高了其在诊断具有非典型特征的癌症时的可靠性。研究人员使用超过6万张高分辨率的组织切片图像,进一步开发了该AI模型,并对其进行了特定的遗传和临床预测任务的微调。该模型在来自全球24家医院和患者群体的19,400多张图像上进行了测试,并将研究结果发表在《自然》期刊上。

  它设计可以与目标分子结合的新型蛋白质 例如,这可以促进药物设计,为癌症、自身免疫性疾病等疾病创造更有针对性、副作用更小的治疗方法。

  该公司表示计划在明年初推出其自动驾驶辅助技术,并准备下个月在加利福尼亚推出其“Cybercab”机器人出租车。

  特斯拉在CEO埃隆·马斯克的社交媒体平台上发布了投资者路线图,指出其高级自动驾驶软件(FSD)预计将在明年获得欧洲和中国的最终监管批准后上线。马斯克强调了AI技术的利润潜力,特别是在特斯拉计划为全球近700万辆电动车提供自动驾驶软件的背景下。

  特斯拉的资本支出今年可能会增加到约100亿美元,主要用于投资AI技术和超级计算机Dojo,Dojo专注于计算机视觉处理和识别。特斯拉将在下个月的洛杉矶举行发布会,正式揭开其首款机器人出租车“Cybercab”的面纱。原计划在八月初发布的机器人出租车因车辆改进而推迟。

  是专为编码任务设计的小参数模型,有1.5B和9B两种参数,在代码生成、理解、调试等方面效果显著! 可以在端侧部署。 支持 52 种主要编程语言,可以处理长达 128K tokens 的上下文,在复杂项目级代码理解和生成中具有显著优势。 Yi-Coder-9B 的表现优于其他 10B 参数以下的模型,如 CodeQwen1.5 7B 和 CodeGeex4 9B,甚至能够与 DeepSeek-Coder 33B 相媲美。

  Phind-405B 在 HumanEval 上的得分为 92%,与 Claude 3.5 Sonnet 相当。我们对它在实际任务中的表现特别满意,特别是在设计和实施 Web 应用方面。 我们对技术主题的关注也使 Phind 能够很好地回答所有问题。我们认为,我们新的 Phind Instant 模型(与 Phind-405B 的训练方式类似)是快速获得互联网来源答案的最佳方式。

扫码二维码