亚洲中字慕日产2020,大陆极品少妇内射AAAAAA,无码av大香线蕉伊人久久,久久精品国产亚洲av麻豆网站

資訊專欄INFORMATION COLUMN

照片+音頻=視頻,超實(shí)用項(xiàng)目源碼已開(kāi)放,單卡4090部署!

UCloud小助手 / 617人閱讀

項(xiàng)目簡(jiǎn)介

AniTalker是一個(gè)開(kāi)源項(xiàng)目,它利用靜態(tài)照片和音頻文件來(lái)創(chuàng)造動(dòng)態(tài)的面部說(shuō)話視頻。


AniTalker采用了一種通用的運(yùn)動(dòng)表示方法。這種創(chuàng)新的表示方法有效地捕捉了廣泛的面部動(dòng)態(tài),包括微妙的表情和頭部動(dòng)作。

AniTalker通過(guò)兩種自監(jiān)督學(xué)習(xí)策略增強(qiáng)了運(yùn)動(dòng)描述:第一種策略是通過(guò)同一身份內(nèi)的源幀重建目標(biāo)視頻幀來(lái)學(xué)習(xí)微妙的運(yùn)動(dòng)表示;第二種策略是使用度量學(xué)習(xí)開(kāi)發(fā)身份編碼器,同時(shí)積極減少身份和運(yùn)動(dòng)編碼器之間的互信息。

這種方法確保了運(yùn)動(dòng)表示是動(dòng)態(tài)的,并且不包含特定身份的細(xì)節(jié),顯著減少了對(duì)標(biāo)記數(shù)據(jù)的需求。

功能特點(diǎn)

動(dòng)態(tài)視頻創(chuàng)作

AniTalker能夠?qū)㈧o態(tài)圖像轉(zhuǎn)化為動(dòng)態(tài)視頻,其中不僅包括口型與音頻的精準(zhǔn)匹配,還涵蓋了豐富的面部表情和頭部動(dòng)作。

個(gè)性化動(dòng)畫(huà)

用戶可以根據(jù)個(gè)人喜好和需求,調(diào)整參數(shù),定制出具有個(gè)性化表情和動(dòng)作的面部動(dòng)畫(huà)。

高度仿真

這項(xiàng)技術(shù)能夠捕捉到面部的微小動(dòng)作,如眨眼和微笑,從而制作出具有高度仿真感的動(dòng)態(tài)視頻。

支持長(zhǎng)視頻

AniTalker支持制作超過(guò)3分鐘的長(zhǎng)視頻,這使得它非常適合用于創(chuàng)建虛擬助手、數(shù)字角色表演等應(yīng)用場(chǎng)景。

項(xiàng)目實(shí)操

預(yù)裝環(huán)境

conda create -n anitalker python==3.9.0
conda activate anitalker
conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=11.1 -c pytorch -c conda-forge
pip install -r requirements.txt

演示腳本

python ./code/demo_audio_generation.py \
--infer_type 'mfcc_pose_only' \
--stage1_checkpoint_path 'ckpts/stage1.ckpt' \
--stage2_checkpoint_path 'ckpts/stage2_pose_only.ckpt' \
--test_image_path 'test_demos/portraits/monalisa.jpg' \
--test_audio_path 'test_demos/audios/english_female.wav' \
--result_path 'results/monalisa_case1/' \
--control_flag True \
--seed 0 \
--pose_yaw 0 \
--pose_pitch 0 \
--pose_roll 0

項(xiàng)目地址:

https://github.com/X-LANCE/AniTalker


  • 推薦使用NVIDIA RTX 40 顯卡做模型推理,購(gòu)買(mǎi)地址如下:

http://www.ezyhdfw.cn/site/active/gpu.html?ytag=seo

https://www.compshare.cn/?ytag=seo


文章版權(quán)歸作者所有,未經(jīng)允許請(qǐng)勿轉(zhuǎn)載,若此文章存在違規(guī)行為,您可以聯(lián)系管理員刪除。

轉(zhuǎn)載請(qǐng)注明本文地址:http://www.ezyhdfw.cn/yun/131099.html

相關(guān)文章

  • Llama3中文聊天項(xiàng)目全能資源庫(kù),4090單卡直接跑!

    Llama3 中文聊天項(xiàng)目綜合資源庫(kù),該文檔集合了與Lama3 模型相關(guān)的各種中文資料,包括微調(diào)版本、有趣的權(quán)重、訓(xùn)練、推理、評(píng)測(cè)和部署的教程視頻與文檔。1. 多版本支持與創(chuàng)新:該倉(cāng)庫(kù)提供了多個(gè)版本的Lama3 模型,包括基于不同技術(shù)和偏好的微調(diào)版本,如直接中文SFT版、Instruct偏好強(qiáng)化學(xué)習(xí)版、趣味版等。此外,還有Phi3模型中文資料倉(cāng)庫(kù)的鏈接,和性能超越了8b版本的Llama3。2. 部...

    UCloud小助手 評(píng)論0 收藏0
  • 基于unsloth的DeepSeek-R1動(dòng)態(tài)量化版本部署

    DeepSeek-R1-671b動(dòng)態(tài)量化版,由unsloth.ai發(fā)布,推薦使用多卡進(jìn)行部署,具體操作如下。本鏡像還附帶32b的無(wú)限制版蒸餾模型,使用open-webui和ollama以及l(fā)lama.cpp進(jìn)行部署,內(nèi)置所有環(huán)境,即拉即用。第一步:登錄「優(yōu)云智算」算力共享平臺(tái)并進(jìn)入「鏡像社區(qū)」,新用戶免費(fèi)體驗(yàn)10小時(shí)4090地址:https://www.compshare.cn/?ytag=seo...

    UCloud小助手 評(píng)論0 收藏0
  • 如何將FPGA資源平民化?阿里工程師有了新突破

    摘要:阿里云服務(wù)器平臺(tái)在云端提供統(tǒng)一硬件平臺(tái)與中間件,可大大降低加速器的開(kāi)發(fā)與部署成本。我們相信,通過(guò)即開(kāi)即用的硬件資源統(tǒng)一的軟硬件邏輯開(kāi)發(fā)接口和市場(chǎng),阿里云能夠真正兌現(xiàn)計(jì)算資源平民化的承諾。 阿里云ECS的異構(gòu)計(jì)算團(tuán)隊(duì)和高性能計(jì)算團(tuán)隊(duì)一直致力于將計(jì)算資源平民化;高性能計(jì)算團(tuán)隊(duì)在做的E-HPC就是要讓所有云上用戶都能夠瞬間擁有一個(gè)小型的超算集群,使得超算不再僅僅是一些超算中心和高校的特權(quán);而...

    liujs 評(píng)論0 收藏0

發(fā)表評(píng)論

0條評(píng)論

閱讀需要支付1元查看
<