文生圖模型近幾年取得了顯著進(jìn)展,但現(xiàn)有模型在實(shí)際應(yīng)用中仍有很多局限。大多數(shù)模型只能單一生成圖片,無法對(duì)圖片進(jìn)行精細(xì)化調(diào)整。為了應(yīng)對(duì)這一挑戰(zhàn),rock 團(tuán)隊(duì)推出了文生圖模型 Chroma 。
Chroma 是基于 FLUX.1-schnell 的 8.9 B 參數(shù)模型。該模型可實(shí)現(xiàn)影視級(jí)調(diào)色、特效合成和風(fēng)格化渲染,帶來專業(yè)級(jí)視覺效果,同時(shí)涵蓋動(dòng)漫、獸類、藝術(shù)作品和照片等多種類型。該模型目前可以通過 ComfyUI 調(diào)用,幫助用戶實(shí)現(xiàn)個(gè)性化創(chuàng)作。相較于傳統(tǒng)特效軟件,操作起來更加簡(jiǎn)單方便。
HyperAI 超神經(jīng)現(xiàn)已上線「ComfyUI Chroma 工作流在線教程」,快來試試吧~
5 月 19 日-5 月 23 日,hyper.ai 官網(wǎng)更新速覽:
* 優(yōu)質(zhì)公共數(shù)據(jù)集:10 個(gè)
* 優(yōu)質(zhì)教程精選:16 個(gè)
* 社區(qū)文章精選:6 篇
* 熱門百科詞條:5 條
* 5 月截稿頂會(huì):3 個(gè)
公共數(shù)據(jù)集精選
- M2RAG 多模態(tài)評(píng)估基準(zhǔn)數(shù)據(jù)集
該數(shù)據(jù)集將圖像和文本數(shù)據(jù)相結(jié)合,模擬真實(shí)場(chǎng)景中的信息檢索與生成任務(wù),例如新聞事件分析、視覺問答等,著重評(píng)估 MLLMs 在多模態(tài)上下文中利用檢索文檔知識(shí)的能力,包括對(duì)圖像內(nèi)容的理解、圖文關(guān)聯(lián)推理以及事實(shí)判斷等方面。
數(shù)據(jù)集示例2. Geometry3k 幾何問題數(shù)據(jù)集
該數(shù)據(jù)集描述了豐富多樣的幾何問題,如求解角度、邊長(zhǎng)、面積、周長(zhǎng)等,總共有 6,293 個(gè)文本項(xiàng)。圖表用于輔助呈現(xiàn)幾何問題中的圖形信息,如各種幾何形狀(三角形、圓形、四邊形等)及其相互關(guān)系,總共有 27,213 個(gè)文本項(xiàng)。
數(shù)據(jù)集示例
3. LLM4Mat-Bench 晶體 結(jié)構(gòu) 數(shù)據(jù)集
該數(shù)據(jù)集收錄了約 197 萬條晶體結(jié)構(gòu)樣本,來自 10 個(gè)公開材料數(shù)據(jù)庫,涵蓋 45 種不同的材料物理與化學(xué)屬性,是迄今為止用于評(píng)估大型語言模型(LLM)用于材料性能預(yù)測(cè)的性能的最大基準(zhǔn)。
數(shù)據(jù)集示例
4. SeniorTalk 老年人對(duì)話中文語音數(shù)據(jù)集
該數(shù)據(jù)集包含多維度的精細(xì)標(biāo)注,包括說話人信息、對(duì)話內(nèi)容轉(zhuǎn)寫、時(shí)間戳(包含句子級(jí)和詞級(jí))、口音類別 標(biāo)簽 等。這些來自真實(shí)世界的數(shù)據(jù)將為深入研究老年人語音信號(hào)、優(yōu)化老年人語音交互系統(tǒng)提供寶貴支撐,并推動(dòng)如設(shè)備適老化、健康管理、輔助養(yǎng)老機(jī)器人等相關(guān)產(chǎn)業(yè)的發(fā)展。
老年人地域分布
5. DeepMath-103K 數(shù)學(xué)推理數(shù)據(jù)集
該數(shù)據(jù)集重點(diǎn)關(guān)注 5-9 級(jí)難度的數(shù)學(xué)問題,涵蓋代數(shù)、微積分、數(shù)論、幾何、概率、離散數(shù)學(xué)等多個(gè)領(lǐng)域,側(cè)重挑戰(zhàn)復(fù)雜推理能力,該數(shù)據(jù)集還通過語義匹配針對(duì)常見基準(zhǔn)進(jìn)行了細(xì)致的去污染處理,最大限度減少測(cè)試集泄露并促進(jìn)模型公平評(píng)估。
DeepMath-103K 的數(shù)學(xué)主題的分層分類
6. OpenMathReasoning 數(shù)學(xué)推理數(shù)據(jù)集
該數(shù)據(jù)集包括數(shù)學(xué)問題類型標(biāo)簽、詳細(xì)解題步驟、問題難度等級(jí)劃分等。這些源于數(shù)學(xué)專業(yè)領(lǐng)域與在線社區(qū)的高質(zhì)量數(shù)據(jù),為深入研究數(shù)學(xué)推理過程、優(yōu)化數(shù)學(xué)解題模型提供了堅(jiān)實(shí)有力的支撐,并推動(dòng)如智能數(shù)學(xué)輔導(dǎo)系統(tǒng)、數(shù)學(xué)競(jìng)賽輔助工具、科研計(jì)算自動(dòng)化等相關(guān)產(chǎn)業(yè)的蓬勃發(fā)展。
7. VL3-Syn7M 多模態(tài)圖像-文本數(shù)據(jù)集
該數(shù)據(jù)集包含多維度的精細(xì)標(biāo)注,包括圖像的詳細(xì)字幕、簡(jiǎn)短字幕以及圖像來源信息等,并且涵蓋場(chǎng)景圖像、文檔圖像、文本圖像等多種類型的數(shù)據(jù),為模型學(xué)習(xí)多模態(tài)信息提供豐富素材。
8. Material DFT 材料屬性數(shù)據(jù)集
該數(shù)據(jù)集涵蓋了多種化學(xué)成分和物理屬性,每條數(shù)據(jù)對(duì)應(yīng)一種獨(dú)特的材料。所有屬性均通過密度泛函理論(DFT)計(jì)算獲得,這是材料行為預(yù)測(cè)中廣泛使用的計(jì)算方法。該數(shù)據(jù)集適用于材料屬性建模、機(jī)器學(xué)習(xí)訓(xùn)練以及材料發(fā)現(xiàn)等任務(wù),為 數(shù)據(jù)科學(xué) 家與研究人員提供了強(qiáng)有力的基礎(chǔ)數(shù)據(jù)支持。
9. Youngs Modulus 楊氏模量數(shù)據(jù)集
楊氏模量是衡量材料抵抗形變能力的一個(gè)物理量,其值越大,材料越不容易發(fā)生形變。該數(shù)據(jù)集包含了 393 個(gè)數(shù)據(jù)點(diǎn),旨在通過測(cè)量晶體在不同方向上的楊氏模量來表征材料的各向異性。
10. ChildMandarin 兒童中文對(duì)話語音數(shù)據(jù)集
該數(shù)據(jù)集專為解決該年齡段普通話語音數(shù)據(jù)稀缺的問題而設(shè)計(jì),旨在支持兒童 語音識(shí)別 、說話人驗(yàn)證等相關(guān)研究領(lǐng)域的發(fā)展。
公共教程精選
圖像生成教程
- ComfyUI Chroma 工作流在線教程
Chroma 是由 rock 于 2025 年推出的文生圖模型,基于 FLUX.1-schnell 的 8.9 B 參數(shù)模型。該模型目前仍在訓(xùn)練中,訓(xùn)練數(shù)據(jù)集從 20 M 樣本中精心挑選出 5 M 數(shù)據(jù),涵蓋動(dòng)漫、獸類、藝術(shù)作品和照片等多種類型。
本教程采用資源為單卡 RTX 4090,僅支持英語提示詞。
Demo 示例
2. FractalGen:逐像素的高分辨率圖像生成 FractalGen 是一種基于分形思想的新型圖像生成技術(shù),它通過分形 生成模型 (Fractal Generative Models)實(shí)現(xiàn)了逐像素的高分辨率圖像生成,顯著提升了計(jì)算效率,解決了傳統(tǒng)生成模型在高分辨率圖像生成中的計(jì)算瓶頸。
該項(xiàng)目已以 notebook 的形式部署完畢,一鍵克隆即可逐步體驗(yàn)!
Demo 示例
3. PixelFlow:像素空間圖像生成方案
PixelFlow 項(xiàng)目是一系列直接在原始像素空間中運(yùn)行的圖像生成模型,與主要的潛在空間模型形成鮮明對(duì)比。
文本到圖像的定性結(jié)果表明,PixelFlow 在圖像質(zhì)量、藝術(shù)性和語義控制方面表現(xiàn)出色。
Demo 示例
4. HiDream-I1-Full 圖像生成 Demo
HiDream-I1 項(xiàng)目是一種全新的 開源 圖像生成基礎(chǔ)模型,HiDream-I1-Full 擁有 17B 參數(shù)的開源圖像生成模型,另外兩個(gè)版本分別是 HiDream-I1-Dev 和 HiDream-I1-Fast 。 HiDream-I1-Full 在性能上表現(xiàn)最為出色,能夠在幾秒鐘內(nèi)實(shí)現(xiàn)行業(yè)領(lǐng)先的圖像生成質(zhì)量。
該項(xiàng)目相關(guān)模型和依賴已經(jīng)部署完畢,啟動(dòng)容器后點(diǎn)擊 API 地址即可進(jìn)入 Web 界面。
Demo 示例
5. OminiControl:多功能圖像生成與控制
OminiControl 是一個(gè)最小但功能強(qiáng)大的通用控制框架,適用于 FLUX 等 Diffusion Transformer 模型 ??梢酝ㄟ^使用 FLUX 模型自定義任何控制任務(wù)(3D 、多視圖、姿勢(shì)引導(dǎo)等)來創(chuàng)建自己 OminiControl 模型。
本教程基于 OminiControl 通用控制框架,算力資源采用單卡 A6000 。
Demo 示例
AI for Science 教程
- Prithvi-EO-2.0 多時(shí)相地球觀測(cè)遙感模型 Demo
該模型包含跨多個(gè)塊和時(shí)間戳的空間和時(shí)間注意機(jī)制。此外,時(shí)間和位置信息通過嵌入添加到模型輸入中。
本教程使用 Prithvi-EO-2.0-300M 模型作為演示,算力資源采用 RTX 4090 。
Demo 示例
2. Gnnwr 時(shí)空智能 回歸 (STIR)模型 Demo
GNNWR 是一種基于 PyTorch 的時(shí)空智能回歸模型,專門用于處理空間和時(shí)間非平穩(wěn)性問題。該模型通過將地理鄰近性和非平穩(wěn) 權(quán)重 的非線性擬合轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)的表示和構(gòu)建,實(shí)現(xiàn)了對(duì)復(fù)雜地理過程的高精度建模。
該項(xiàng)目相關(guān)模型和依賴已經(jīng)部署完畢,啟動(dòng)容器后點(diǎn)擊 API 地址即可進(jìn)入 Web 界面。
Demo 示例
3. 基于 RFUAV 系統(tǒng)使用 Matlab 處理無人機(jī)信號(hào)
在通信安全與頻譜監(jiān)測(cè)中,基于射頻 (RF) 數(shù)據(jù)的無人機(jī)識(shí)別系統(tǒng)被廣泛研究。 RFUAV 項(xiàng)目通過頻譜圖分析、信噪比估計(jì)等手段,對(duì)無人機(jī)的 IQ 信號(hào)進(jìn)行分析處理。
由于原始數(shù)據(jù)暫未提供,此處數(shù)據(jù)集選用 IDLab 平臺(tái)的數(shù)據(jù)作為數(shù)據(jù)處理演示。因完整數(shù)據(jù)集過于龐大,本教程僅對(duì)其中部分?jǐn)?shù)據(jù)進(jìn)行分析。點(diǎn)擊下方鏈接一鍵部署。
Demo 示例
4. 考慮動(dòng)水壓力的 Koyna 地震非線性動(dòng)力響應(yīng)分析
Abaqus 是一款功能強(qiáng)大的有限元分析 (FEA) 軟件,廣泛應(yīng)用于工程模擬領(lǐng)域。它通過有限元方法對(duì)各種工程問題進(jìn)行模擬和分析,能夠處理從簡(jiǎn)單的線性問題到復(fù)雜的非線性問題。
該教程為 Abaqus 官方教程:混凝土重力壩的抗震分析。本例說明了混凝土損傷塑性材料模型在評(píng)估任意載荷作用下混凝土結(jié)構(gòu)穩(wěn)定性和損傷的典型應(yīng)用。
5. VASP 結(jié)合 Phonopy 計(jì)算硅的聲子譜
Phonopy 是一款用于在簡(jiǎn)諧和準(zhǔn)簡(jiǎn)諧水平下計(jì)算聲子能帶結(jié)構(gòu)、熱學(xué)性質(zhì)、群速度以及其他與聲子相關(guān)物理量的 python 工具包。
本次教程將使用自動(dòng)化腳本來進(jìn)行 phonopy 進(jìn)行演示計(jì)算流程。通過本教程,您將學(xué)會(huì)聲子譜計(jì)算的基本流程。啟動(dòng)容器后點(diǎn)擊 API 地址即可進(jìn)入 Web 界面。
Demo 示例
6. 使用 VASP 進(jìn)行機(jī)器學(xué)習(xí)力場(chǎng)訓(xùn)練
本次教程將以硅晶體為例,通過 NpT 系綜分子動(dòng)力學(xué),演示如何訓(xùn)練 vasp 機(jī)器學(xué)習(xí)力場(chǎng)。通過本教程,您將學(xué)會(huì)機(jī)器學(xué)習(xí)力場(chǎng)訓(xùn)練的基本流程。啟動(dòng)容器后點(diǎn)擊 API 地址即可進(jìn)入 Web 界面。
在線運(yùn)行:https://go.hyper.ai/JssLr
Demo 示例
7. VASP 結(jié)合 Phonopy 計(jì)算硅的比熱容
VASP 是一個(gè)計(jì)算機(jī)程序,用于從第一性原理進(jìn)行原子尺度材料建模,例如電子結(jié)構(gòu)計(jì)算和量子力學(xué)分子動(dòng)力學(xué)。 Phonopy 是一款用于在簡(jiǎn)諧和準(zhǔn)簡(jiǎn)諧水平下計(jì)算聲子能帶結(jié)構(gòu)、熱學(xué)性質(zhì)、群速度以及其他與聲子相關(guān)物理量的 python 工具包。
本次教程將使用自動(dòng)化腳本來使用 Phonopy 進(jìn)行演示計(jì)算流程。通過本教程,您將學(xué)會(huì)比熱容計(jì)算的基本流程。啟動(dòng)容器后點(diǎn)擊 API 地址即可進(jìn)入 Web 界面。
Demo 示例
vLLM 教程
- 一鍵部署 DeepCoder-14B-Preview DeepCoder-14B-Preview 在 LiveCodeBench v5 (8/1/24-2/1/25) 上實(shí)現(xiàn)了 60.6% 的 Pass@1 準(zhǔn)確率,比基本模型(53%)提高了 8%,并且只用 14B 參數(shù)實(shí)現(xiàn)了與 OpenAI 的 o3-mini 相似的性能。 DeepCoder-14B-Preview 采用 bitsandbytes 提供的 8-bit 量化方法來優(yōu)化顯存占用。算力資源采用 RTX4090 。啟動(dòng)容器后點(diǎn)擊 API 地址即可進(jìn)入 Web 界面。
Demo 示例
2. 使用 vLLM 與 Open-WebUI 部署 GLM-4-32B
GLM-4-32B-0414 在代碼工程、工件生成、 函數(shù)調(diào)用 、基于搜索的問答和報(bào)告生成方面均取得了良好的效果。特別是在代碼生成或特定問答任務(wù)等幾個(gè)基準(zhǔn)測(cè)試中,GLM-4-32B-Base-0414 實(shí)現(xiàn)了與 GPT-4o 和 DeepSeek-V3-0324(671B) 等較大模型相當(dāng)?shù)男阅堋?/p>
本教程使用 GLM-4-32B 作為演示,算力資源采用雙卡 A6000 。
Demo 示例
3. 使用 vLLM+Open-webUI 部署 Qwen3 系列模型
Qwen3 是 Qwen 系列中最新一代大型語言模型,提供全面的密集模型和混合專家 (MoE) 模型。 Qwen3 基于豐富的訓(xùn)練經(jīng)驗(yàn),在推理、指令遵循、代理能力和多語言支持方面取得了突破性進(jìn)展,Qwen3 的應(yīng)用場(chǎng)景非常廣泛。它支持文本、圖像、音頻和視頻處理,能夠滿足多模態(tài)內(nèi)容創(chuàng)作和跨模態(tài)任務(wù)的需求。
本教程使用 vLLM+Open-webUI 作為演示,采用資源為單卡 RTX 4090 。
Demo 示例
4. 使用 vLLM 加載大模型進(jìn)行少樣本學(xué)習(xí)
該教程為在 RTX 4090 上使用 vLLM 加載 AWQ 量化 Qwen2.5-3B-Instruct 。對(duì)于每個(gè)測(cè)試問題,我們使用訓(xùn)練數(shù)據(jù)檢索一組「支持」它的類似問題??紤]「construct」和「subject」等內(nèi)容使用一組類似的問題,我們創(chuàng)建了一個(gè)可以饋送到我們的模型的對(duì)話。
目前 HyperAI 超神經(jīng)官網(wǎng)已經(jīng)上線了「使用 vLLM 加載大模型進(jìn)行少樣本學(xué)」的一鍵部署教程,點(diǎn)擊克隆即可一鍵啟動(dòng)。
社區(qū)文章精選
- 融合蛋白質(zhì)語言模型和圖像修復(fù)模型,麻省理工與哈佛聯(lián)手提出 PUPS,實(shí)現(xiàn)單細(xì)胞級(jí)蛋白質(zhì)定位
麻省理工學(xué)院和哈佛大學(xué)的團(tuán)隊(duì)提出了一種結(jié)合了蛋白質(zhì)序列和細(xì)胞圖像來進(jìn)行未知蛋白質(zhì)亞細(xì)胞定位的預(yù)測(cè)框架 PUPS 。該框架創(chuàng)新地結(jié)合了蛋白質(zhì)語言模型和圖像修復(fù)模型來預(yù)測(cè)蛋白質(zhì)定位,使其兼并推向未知蛋白預(yù)測(cè)的泛化能力和捕獲細(xì)胞可變性的細(xì)胞類型特定預(yù)測(cè)。
- 浙大團(tuán)隊(duì)研發(fā) Earth Explorer 系統(tǒng),探索深時(shí)演化/地學(xué)剖面/科研場(chǎng)景,賦能深時(shí)地球科學(xué)研究
浙江大學(xué)地球科學(xué)學(xué)院的專職研究員戚勁在中國地理學(xué)會(huì)地理模型與地理信息分析專業(yè)委員會(huì) 2025 年學(xué)術(shù)年會(huì)上,就「深時(shí)地球群智協(xié)同創(chuàng)新平臺(tái)」進(jìn)行了專題分享。從深時(shí)可視化分析系統(tǒng)(Earth Explorer)的總體概述、研發(fā)進(jìn)展以及應(yīng)用成效三個(gè)方面介紹了團(tuán)隊(duì)成果。本文為戚勁老師的分享精華實(shí)錄。
- 基于 800 萬真實(shí)數(shù)據(jù),康奈爾大學(xué)團(tuán)隊(duì)利用圖神經(jīng)網(wǎng)絡(luò)精準(zhǔn)預(yù)測(cè)肺癌患者生存期,發(fā)現(xiàn) 3 類致命亞型
美國康奈爾大學(xué)與再生元制藥公司提出圖編碼混合生存模型(GEMS),通過圖神經(jīng)網(wǎng)絡(luò)編碼患者電子健康記錄復(fù)雜關(guān)系并與生存分析模型結(jié)合,識(shí)別具有一致 特征 和生存結(jié)局的亞表型。
- 首次實(shí)現(xiàn)納米晶體端到端解析,哥大團(tuán)隊(duì)提出 PXRDnet,成功解析 200 種復(fù)雜模擬納米晶體
哥倫比亞大學(xué)、斯坦福大學(xué)的研究人員提出了一種基于 擴(kuò)散模型 的生成式 人工智能 結(jié)構(gòu)解析方法 PXRDnet 。即便僅以化學(xué)式和信息稀缺的有限尺寸展寬粉末衍射圖為條件,該模型也能成功解析 200 種不同對(duì)稱性和復(fù)雜性的模擬納米晶體,涵蓋來自所有七個(gè)晶體系統(tǒng)的結(jié)構(gòu),最小粒徑可至 10 ?。
5.Gemini 2.5 全系更新,Deep Think 加持碾壓 OpenAI
在剛剛結(jié)束的 Google I/O 2025 的主題演講中,Google 發(fā)布了多項(xiàng)重要更新,進(jìn)一步展示其在 AI 競(jìng)速賽中的實(shí)力。
- 黃仁勛最新演講!開放生態(tài)的 NVLink Fusion 支持半定制 AI 基礎(chǔ)設(shè)施;開源人形機(jī)器人基礎(chǔ)模型
黃仁勛在 Computex 2025 上分享了英偉達(dá)在數(shù)據(jù)中心、企業(yè)級(jí) AI 和機(jī)器人領(lǐng)域的多項(xiàng)更新。
熱門百科詞條精選
-
DALL-E
-
人機(jī)回圈
-
倒數(shù)排序融合
-
雙向 長(zhǎng)短期記憶
-
大規(guī)模多任務(wù)語言理解
5 月截稿頂會(huì)
RTSS 2025 :5 月 23 日 19:59:59
SIGGRAPH 2025 : 月 23 日 19:59:59
ASE 2025 :5 月 31 日 19:59:59
以上就是本周編輯精選的全部?jī)?nèi)容,如果你有想要收錄 hyper.ai 官方網(wǎng)站的資源,也歡迎留言或投稿告訴我們哦!
下周再見!