民用AI,本地部署!技嘉4070風魔實測AI生產力

大家好,我是波導終結者。

首先想跟大家聊聊最近發展甚快的AI。想必大部分人都不曾想到,AI的發展會如此之快,以至於真的可能影響我們的生活方式。比如最近官媒通報過,AI片氾濫,要求大家警惕。現在的技術已經可以做到實時換臉、換聲,也就是說陌生人通過AI技術,可以換臉、換聲成你認識的人。以前說的要打電話確認已經不管用,甚至視頻通話都不管用了。早幾年,AI換臉就已經在挑戰著司法和倫理的底限,現在只會更糟,因為萬一有什麼糾紛,照片甚至是視頻都不再可信。

鑑於此情況,NVIDIA也是再次大火,市值一度突破萬億美元。現在已經有不少的AI項目已經頗為成熟,甚至可以本地斷網只用一張民用顯卡來運行。今天就跟大家分享一下最近新入手的顯卡,以及一些可以本地利用顯卡加速運行的AI項目。事先聲明,本文內容側重於顯卡對生產力的加速,不涉及任何不良內容、不良用途的產生和教學。

趁著這次618入手了技嘉4070風魔,主要用來做生產力。挑選理由也比較簡單:1.它有12G顯存,上代的3080Ti也才12G,至於傳說中的4060Ti 16G版,後面再說;2.標準版普遍使用8pin電源接口,更適合部分老機升級;3.功耗比、性價比很高。

先來看看賬面數據。4070使用了最新的Ada Lovelace架構,採用AD104-250核心,有5888個CUDA核心,並且L2高速緩存從個前代的4MB提升至36MB,擁有184個TMUS、60個ROPS以及46個光追單元。同時RTX 4070的基礎頻率達到了1920MHz,Boost頻率可達2475MHz。 在顯存方面,RTX 4070擁有12GB 192bit位寬的GDDR6X顯存,顯存速率達到了21Gbps。

規格上,4070最大的優勢是架構和功耗,光追、DLSS3等方面都有優化。遊戲性能已經有不少媒體做過實測,這裡簡單的跑一下3DMARK,TIME SPY 17955分,TIME SPY EXTREME 8360分,FIRE STRIKE EXTREME 20567分,FIRE STRIKE ULTRA 10233分。由於遊戲的部分很多人都測過,我打算直奔生產力和AI軟件了,畢竟NVIDIA市值暴漲就是因為AI使用顯卡加速的普及。而一般理論上來說,幹活用的應該上最好的,但現實情況就是,大半的個人甚至公司還是希望捏緊一下預算,挑性價比高的。

正好手上有一塊3080Ti,紙面性能肯定是要高於4070的,但考慮到差了好幾倍的原價以及功耗,若能達到差不多的生產力效果,4070反而可能是上選。這次的測試平臺是:10700K+Z490+3080Ti,WIN10最新版,531.41 Game Ready(懶得重裝);以及12700K+Z690+4070,WIN11最新版,531.41 Studio。

AI語音轉文字

關於語音轉文字的應用可以追溯到很久很久以前,對於大部分人來說,手機語音轉文字是最臉熟的。在幹活領域,真正進入大眾視野以及實用,還是和短視頻分不開,簡單來說就是沒字幕不看。然而,打過字幕的人都知道,麻煩,耗時。

相關的工具我從很早也就開始用了,比如X易見外,以及民間調用X度API的工具等。但是當大廠進軍之後,就沒這些工具什麼事了。目前就VLOG來說,如果你不擔心聯網導致的隱密性問題,剪映用起來還是很不錯的。

第二個是PR,2022之後的版本也支持語音轉文字了,但個人用下來感覺不是很好用。首先它是需要本地模型的,安裝包要大上10來G(可精簡至剩中英文);其次,斷句不舒服,還要比較多的二次操作;第三,離最後生成內嵌或者外掛字幕都還需要額外步驟。

而且目前它的速度還是偏慢,根據資源佔用情況可以看到,CPU沒有吃滿,顯卡基本沒用到。用我之前自己錄的遊戲視頻實測,1小時的視頻需要將近20分鐘,速度僅為3倍。

以上2個工具更適合VLOG視頻編輯時集成使用,那麼如果只是單純的想要把視頻轉換成文字,然後輸出文本或者SRT字幕,有沒有更佳的方案呢?當然是有的。經過我自己一番嘗試,由OpenAI開源的Whisper是很不錯的方案。首先它是完全離線,依靠本地模型,並且第三方封裝的Whisper支持GPU加速,效果也非常不錯。

實際操作下來,將近55分鐘的視頻在3080Ti上僅用時2分26秒轉換完成,而4070用時2分39秒,兩者都達到了20倍以上的速度。這麼一小點的差距,在性價比和能耗比面前不值一提。

效果方面,一般推薦使用medium模型,但不知為何,出來的文字是繁體中文,使用工具轉成簡體即可。如果覺得還不滿意,可以試試使用large模型,耗時約為medium的2倍,實測速度在12倍速左右。中文medium模型1.5G,large在3G左右,對於生產力來說不痛不癢。而且實際操作的時候,我發現中文裡夾雜的英文其實也可以識別出來,比如圖裡的“LB+B”,是我在實況解說時說到的手柄操作,其他的常用單詞,比如F開頭或者S開頭的基本也可以識別出來。

實際佔用方面,雖然官方推薦16GB顯存,但我用的時候分別只吃掉了3.7G和2.5G顯存,12G應該是夠的,兩張顯卡的3D佔用都在90%左右浮動。

令我覺得有點驚喜的是4070的溫度,我看任務管理器,在50和60多度之間來回跳,一開始以為是顯示錯誤。用手摸了一下,背板竟然也不是很燙,可以把手指一直放在上面。仔細一想,又看了一下風扇,恍然大悟。現在的顯卡都有風扇智能啟停,默認好像是50度以下不轉,而4070的功耗和發熱控制得更出色,剛好卡在50度左右,不轉的時候溫度迅速上升,然後風扇轉起來又降到了50度以下,又不轉了。哦,還有一點忘了提,這卡只需單8pin供電。

另外,我還試了一下純CPU識別,不知道是不是這個工具封裝的時候只做了GPU的部分。如果強制只使用CPU的話,速度極慢,出不了結果,我甚至弄了個幾分鐘的小視頻進去,也一直卡著進度條,而CPU佔用率一直是滿的。最後我又去弄了原始的python程序試了一下,10分鐘的視頻花了我差不多1小時,人直接傻了。簡單換算的話,顯卡的速度為CPU的120倍左右。

總結一下,如果你只是做VLOG,幾分鐘視頻打打字幕,不介意聯網,那麼直接扔剪映裡面就行。而如果有生產力需求,有比較大數量或者時長的資源需要處理,那麼Whisper是目前的首選。它不僅可以通過腳本單獨運行,或者使用封裝好的EXE,也可以直接集成源代碼實現更多複雜的功能。顯卡加速效果明顯,在4070上可以以1:20以上的速度運行。

AI繪畫

對於更多老……朋友來說,可能最蠢蠢欲動的是AI繪畫了。鑑於用途不同,本文不使用額外的模型,不生成真人照片,只討論顯卡加速效果。這裡偷懶,直接使用了基於stable diffusion的第三方整合包,可以自由切換CPU或者顯卡。

這東西的參數非常多的,本文並非AI繪畫效果教程,所以不多贅述。模型貌似是以塊為單獨生成的,所以分辨率並不能任意設置。

實測的時候,CPU工作時資源吃到70%-80%左右,並未跑滿。顯卡只有3D吃到25%左右,顯存還剩一半有餘,甚至連風扇都懶得轉。AI繪畫是多次迭代的,出現這種情況並不意外。

我讓引擎生成一張顯卡,10700K耗時5分57秒,3080Ti耗時6秒72,12700K耗時5分24秒,4070耗時6秒29。請注意,本次主要探討的是顯卡在同等設置和質量下的速度優勢,所以並未使用額外的模型,也不生成真人圖片。

總的來看,在AI繪畫時,4070/3080Ti的速度都在CPU的50倍以上,如果是生產力用途的話,往往需要生成非常大量的圖片從中挑選,這時候提升還是相當可觀的。不過,在嘗試生成1920級別分辨率的時候,兩張12GB顯存的顯卡都爆了顯存,雖然可以通過–lowvram參數緩解,但是速度又慢了。所以對這方面生產力要求高的用戶,還得挑選更大顯存的型號,比如24GB顯存的4090。

AI人聲分離/消音伴奏

如果是玩電腦比較早的朋友,又有稍微玩一下音頻處理之類的,可能會對“消音伴奏”有點印象。以前,一首歌曲,如果沒有官方的伴奏,而一般人又沒有足夠的樂理能力,是無法弄出質量好點的伴奏的。普通用戶只能用消音的方式,說白了就是把歌曲的左右聲道反相,那麼一般來說,人聲左右聲道均勻,反相之後抵消,留下大部分伴奏。然而,這種方式的效果全看臉,有的歌曲能達到90%的效果,也有的人聲基本還在,主要伴奏卻被消得參差不齊了。如果你去KTV有唱過所謂的盜版歌曲,感覺伴奏很怪,那有很大概率就是老式的消音伴奏弄的。

然而,隨著近幾年AI的流行,使用AI配合模型對音頻進行人聲與伴奏的高質量分離成為了可能。UVR5這款軟件現在的效果已經非常不錯,並且不管有沒有顯卡,都可以使用。這裡先使用CPU進行處理,耗時1分29秒。

如果僅是對一首3-5分鐘的歌曲進行處理,那麼CPU的速度也還可以忍受,當然有顯卡的話快4-5倍那是更好的。而嚴格來說,UVR5不僅僅是對歌曲進行處理,而是分離人聲。舉個例子,比如現在有部動畫,你想給它做配音,但是找得到背景音源嗎?幾乎找不到。不用說個人了,以前我就看過不少因為沒有靠譜音源而效果極其糟糕的國配動畫,比如七龍珠Z和灌籃高手的其中某些集數,相信看過的朋友都有印象。

關於效果,我只使用了默認的UVR-MDX-NET 1模型,結論就是兩個字:牛逼!伴奏乾乾淨淨,一點人聲都沒有。而人聲部分一樣乾乾淨淨,連混音和和聲都全在。如果硬要說缺點的話,那就是伴奏沒和聲了,這種基於模型的分離人聲與樂器很容易,但分離主唱與和聲卻很難。如果你有比較大批量或者時長的音頻需要分離人聲,搞塊顯卡能把速度快5倍也是很舒服的事情。

AI歌手/換臉

因為涉及到版權和炸片風險,這裡只粗淺聊聊。目前AI歌手的做法就是先用剛才提到的UVR5之類的把人聲分離出來,作為模型訓練,再用模型去唱歌,擬真度已經可以達到95%,除了“沒感情”之外,真的是隨便暴打初音洛天依。並且整合在一起的話,就可以實時換聲。而換臉的前身,比如Facerig之類的以前也流行過,前幾年也已經有非實時換臉技術出現,也經常被用到動作片上,你看到的“XX明星流出”基本上都是換臉的。但最近技術繼續發展,已經可以實現實時換臉甚至“換人”,也即連全身肢體動作一起換。

我只能說,我很擔心,但無能為力。這技術被濫用的後果非常嚴重,而目前全球行業內都缺乏有效的技術和法律手段去應對。我不擔心顯卡漲價,我很擔心炸片氾濫,偽造的圖片和視頻氾濫。

AI視頻放大

AI視頻放大本質上和AI圖片放大是同一回事,所以放到一起說。那些AI舊照片修復啥的同理。以前,在DLSS出現之前,有人問我說視頻能放大嗎,馬賽克能去除嗎,我都很肯定的說:不能,因為缺失的細節是什麼,誰也不知道。

現在,這個說法仍然沒有問題,但是,AI可以把細節補齊到,讓人看起來“覺得就是原片”。也即AI放大補齊的當然不是原始細節,但是合情合理,讓人類看起來覺得沒有差別。

這方面目前最流行的軟件是Topaz Video AI,最新版本3.0.5,支持各類顯卡加速。

這裡我用自己錄的塞爾達1080P視頻來試,放大到3840×2160,默認模型和效果,不做其他處理。可以看到,純CPU幹活時,每秒只有0.2幀,這個速度非常簡直無語。而且可以看到,大核沒幹滿,小核沒在幹。

使用4070幹活時,速度“飆升”了20多倍來到3幀左右,在2.5-3.3範圍內浮動,真是可喜可賀。軟件也提供“All GPUs”的選項,但想也知道CPU核顯獨顯同時幹到滿幾乎不可能,實測與獨顯加速並無區別。鑑於速度太慢,我覺得AI視頻放大目前並不具有民用意義上的泛用性,更多的是用來偶爾給什麼老舊MV或者你懂的視頻翻個新,或者商業上砸一堆機器來翻新個什麼4K電視劇之類的。

AV1硬編碼

之前我誇過開源軟件的生命力與更新速度,這不,FFmpeg與OBS已經第一時間跟進了AV1的顯卡編碼加速。目前40系的N卡,INTEL的Arc獨顯和最新的AMD 7000系均已搭載支持AV1硬編碼(注意不是解碼)。根據眾多測試,目前N卡的Ada Lovelace架構搭載的第八代NVENC效果最好。

我用最新版OBS試了一下,首先H265和AV1編碼在國內無法開啟,只有某404直播站支持。這裡我用本地錄像做測試,只需要把輸出模式設為高級,錄像裡選擇自定義輸出,編碼器找到av1_nvenc即可。

測試時接的是2560×1440顯示器,OBS的分辨率也基於此,編碼佔用顯卡Video Encode約30%,實時編碼4K肯定也是綽綽有餘。此時CPU佔用僅2%,約等於放假。錄完之後播放視頻驗證,無任何問題。

至於非直播的AV1編碼,也即視頻壓制,首先我使用最新版本的FFmpeg進行CPU軟壓,速度不到0.1倍,可以認為基本不可用。其實諸多編碼器初期不完善時都是這樣,包括H264早期用CPU軟壓也是這麼慢,當時不少的壓片大佬也經歷過0.1倍速壓片的日子,向壓片前輩們致敬。

使用av1_nvenc壓制時,可喜可賀,速度直接上了9倍,並且從任務管理器中可以看到,3D和Video Encode基本都吃滿了。生產力的時候,吃越滿當然是越高興的了。

那麼,目前AV1硬編碼已經完全可用,但目前只有命令行最靠譜,只待各個GUI跟進。當然,在網上我也看到一些營銷號亂吹,說什麼市面上的GUI有多少多少都已經支持AV1硬編碼,還特地拿我常用的ShanaEncoder舉例。那麼我要打臉了:ShanaEncoder最新版本5.3.1.1是去年2月發佈的,根本不可能支持,試都不用試(當然我試過)。

其他AI項目

在新技術的探索上,NVIDIA確實一直都處於領先的地位,包括之前3D遊戲裡的抗鋸齒、DSR等方案,以及G-Sync、DLSS、Reflex等。這其中也有一些比較輕度的AI應用,這裡也跟大家盤點一下。最近30和40系的顯卡是支持了VSR視頻增強技術,說白了就是插值分辨率,目前Chrome和Edge瀏覽器,以及VLC本地播放支持。我實測觀感確實有所提升,但是並不大,優於單純的銳化,劣於DLSS和Topaz Video AI(廢話),並且對顯卡的佔用也不小,個人覺得沒啥用,不推薦開。

第二個是NVIDIA Canvas,AI風景畫。用戶簡單的畫上幾筆,由AI來生成相應的風景畫。由於只能輸出風景畫,沒什麼人用,但如果有需求並且有一定繪畫功底的人用可能有奇效。最近1.4版本甚至還更新了導出3D環境貼圖的功能……

比較實用的是BROADCAST,包括很實用的麥克風AI降噪和相機智能摳圖。值得表揚的是,NVIDIA將SDK做了開放,OBS以及很多外設廠商都在自己的軟件內集成了這些功能。

總的來看,電子產品買新不買舊的說法還是有一定道理的。4070新的架構和工藝使得它比前代準旗艦卡更有性價比,這張技嘉風魔4070是系列最基礎的版本,然而無論是做工用料還是實際表現都很出色。

正逆3風扇加上非常下料的散熱配置,本身卻只需要單8pin供電以及不到200W的功耗,幹活時安靜又省電,溫度也壓得很理想,風扇經常都懶得轉。想像一下,如果不是一臺機子,而是有一定需求的公司採購40臺,一天24小時不停地幹活(比如轉碼之類的,不是挖礦哦),那麼一年省下的電費都能買多少張顯卡了。

擋板這裡也是有個小設計,可以看到做了一個小彎折,這樣螺絲擰下去之後固定性很好。再加上4070本身大小和重量適中,應該不需要顯卡支架。其他的角度拍了拍,感覺也沒啥好看的了,就是插上,幹活!

感謝大家的點贊,專業硬核內容,請關注波導終結者,有些正文不方便展示的內容,可以評論裡聊聊。我們下期再見。

PS:你關注或者喜歡的萌妹或者大乃Vtuber有99%都是摳腳大漢通過AI之類的技術變的。別問我為什麼知道,一般人我不告訴他……

遊戲

PS5/PC《Diablo 4》多方面表現進步、耐玩度提升

2023-6-7 16:17:03

遊戲

遊戲規則著作權保護路徑之商榷——以率土訴三戰案出發

2023-6-7 16:17:39

搜索