當前位置：新聞 > IBM專家觀點： IBM 大模型揭秘

IBM專家觀點： IBM 大模型揭秘

2023-11-22 10:52 來源：美通社作者：電源網(wǎng)

北京2023年11月21日 /美通社/ -- IBM 近期推出Granite 系列大模型，引起廣泛關注。這是 IBM首個從頭開始在最大的可信企業(yè)級數(shù)據(jù)湖上訓練開發(fā)的企業(yè)級生成式大模型集合。IBM數(shù)據(jù)與人工智能資深技術專家、The Open Group 卓越級技術專家吳敏達撰文，對IBM Granite 做了全面介紹。

IBM 宣布推出 watsonx Granite 模型系列及其為watsonx 模型提供的客戶保護

作者：吳敏達，IBM科技事業(yè)部數(shù)據(jù)與人工智能資深技術專家

作者簡介：吳敏達是 The Open Group 卓越級技術專家（Distinguished Technical Specialist），同時擁有計算機技術與軟件專業(yè)系統(tǒng)架構設計師技術資格。他現(xiàn)在是 IBM 科技事業(yè)部數(shù)據(jù)與人工智能資深技術專家，擁有 20 多年數(shù)據(jù)分析軟件相關技術經驗，是 IBM 認證的大數(shù)據(jù)架構師和 Watson 開發(fā)者，專長是大數(shù)據(jù)、人工智能等領域。他是 IBM Developer 的大師級作者，已經發(fā)表了 40 余篇技術文章和教程?，F(xiàn)從事大數(shù)據(jù)、人工智能相關技術支持和架構設計工作。

IBM專家觀點： IBM 大模型揭秘

引言

對企業(yè)用戶而言，擁有選擇權對于成功采用人工智能至關重要。對于生成式 AI ，并非所有大模型都是一樣的，一種模型并不適合所有情況：最好的模型將取決于行業(yè)、領域和用例。 IBM watsonx 為客戶提供一系列模型選擇，包括 IBM 開發(fā)的基礎模型、開源模型以及來自第三方供應商的模型，在模型和部署環(huán)境兩個維度上提供選擇和靈活性。

更重要的是，模型并不總是越大越好，過大的模型推理成本太高，企業(yè)無法承擔運行成本。專用的模型比更大的通用模型可產生更好的結果，并且可以降低基礎設施要求從而提高性價比。watsonx.ai 模型庫包含 IBM Slate 基礎模型，Slate 模型采用僅編碼器架構，1.53 億參數(shù)的多語言模型對于企業(yè)自然語言處理的非生成式 AI 用例非常高效，適用于情感分析、實體提取、關系檢測和分類等。IBM Slate 模型提供了 CPU和 CPU/GPU 不同方式，CPU 方式專門對僅 CPU 環(huán)境進行了優(yōu)化，降低總擁有成本。

最近 IBM watsonx 中推出 IBM 開發(fā)的 Granite 系列大模型，引起廣泛關注。IBM Granite 模型是 IBM 第一個從頭開始在最大的可信企業(yè)級數(shù)據(jù)湖上訓練開發(fā)的生成式大模型集合。Granite 系列是僅解碼器架構，第一個版本的 Granite 系列包括 130 億參數(shù)模型的兩個變體：granite.13b.v1.chat 和 granite.13b.v1.instruct。 granite.13b.v1.chat 專為對話和問答而設計，而 granite.13b.v1.instruct 旨在遵循簡短的指令并返回簡潔的響應。日前，granite.20b.code 也隨著 watsonx Code Assistant 發(fā)布，這是 200 億參數(shù)的代碼生成大模型，可幫助企業(yè)的開發(fā)人員和 IT 運營人員使用自然語言提示，從而更快、更準確地編寫代碼。

IBM 同時還公開了 Granite 系列模型的細節(jié)[1]，包括架構、訓練數(shù)據(jù)、訓練算法、計算基礎設施等細節(jié)。本文幫您揭開 Granite 的神秘面紗，來理解 IBM 開發(fā)的大模型如何提高企業(yè)對其 AI 之旅的信任。

IBM專家觀點： IBM 大模型揭秘

數(shù)據(jù)處理

為了支持企業(yè)級大模型的訓練，IBM 構建了一個來自學術界、互聯(lián)網(wǎng)、企業(yè)（例如金融、法律）和源代碼的非結構化語言數(shù)據(jù)的大數(shù)據(jù)集。這是非常罕見的，也表示了 IBM 對透明度和負責任的AI的承諾。

該預訓練數(shù)據(jù)集是替代開源數(shù)據(jù)集而創(chuàng)建的專有數(shù)據(jù)集，開源數(shù)據(jù)集因包含有毒、有害或盜版內容而受到批評。通過構建 IBM 預訓練數(shù)據(jù)語料庫解決以上提到的這些問題和其他隱含問題。IBM 大模型訓練中使用的數(shù)據(jù)集如下：

arXiv:發(fā)布到 arXiv 的超過 180 萬篇科學論文預印本。

Common Crawl: 開放的可以被網(wǎng)絡爬蟲獲取的存儲庫。

DeepMind Mathematics: 數(shù)學問答數(shù)據(jù)。

Free Law: 來自美國聯(lián)邦和州法院的公共領域法律意見。

GitHub Clean: 來自 CodeParrot 的源代碼數(shù)據(jù)，涵蓋多種編碼語言。

Hacker News: 2007-2018年產生的計算機科學與創(chuàng)業(yè)新聞。

OpenWeb Text: OpenAI的Web文本語料庫的開源版本，包含到2019年的網(wǎng)頁。

Project Gutenberg (PG-19): 免費電子書庫，重點關注美國版權已過期的舊作品。

Pubmed Central: 生物醫(yī)學和生命科學論文。

SEC Filings: 美國證券交易委員會（SEC） 1934-2022 年的 10-K/Q 文件。

Stack Exchange: Stack Exchange 網(wǎng)絡上所有用戶貢獻內容的匿名集合，這是一個以用戶貢獻的問題和答案為中心的流行網(wǎng)站集合。

USPTO: 1975年至2023年5月授予的美國專利，不包括外觀設計專利。

Webhose: IBM 獲取的 Web 內容轉換為機器可讀數(shù)據(jù)集。

Wikimedia: 維基項目（enwiki，enwikibooks，enwikinews，enwikiquote，enwikisource，en- wikiversity，enwikivoyage，enwiktionary）。包含從頁面和文章中提取的純文本。

IBM 精選的預訓練數(shù)據(jù)集正在不斷增長和發(fā)展，其他數(shù)據(jù)會定期審查并考慮添加到語料庫中。除了增加預訓練數(shù)據(jù)的大小和范圍外，還會定期生成和維護這些數(shù)據(jù)集的新版本，以反映增強的過濾功能（例如，重復數(shù)據(jù)刪除以及仇恨和臟話檢測）和改進的工具。

在 granite.13b 進行預訓練時，IBM 在預處理之前收集了 6.48 TB 的數(shù)據(jù)，在預處理后構建了 2.07 TB 的訓練數(shù)據(jù)。而 granite.20b.code 在預處理后構建了 100 多種不同編碼語言的 1.6T 的訓練數(shù)據(jù)，包括 Cobol 和 Ansible。

IBM專家觀點： IBM 大模型揭秘

整個數(shù)據(jù)預處理管道的各種步驟為模型訓練做好準備，整個過程是在最大的可信企業(yè)級數(shù)據(jù)湖 watsonx.data 上完成的，這是建立在開放式湖倉一體架構之上。預處理過程由以下步驟組成：
1）文本提取
2）重復數(shù)據(jù)消除
3）語言識別
4）句子拆分
5）仇恨、辱罵和臟話檢測
6）文檔質量注釋
7）網(wǎng)址屏蔽列表注釋
8）過濾
9）標記化

IBM專家觀點： IBM 大模型揭秘

從訓練數(shù)據(jù)可以看出，IBM 模型為什么可以安全地供企業(yè)使用？

根據(jù) IBM 廣泛的數(shù)據(jù)治理實踐（對應于數(shù)據(jù)清理和獲?。δＰ瓦M行了審查；文件質量檢查；預處理數(shù)據(jù)管道，包括標記化、重復數(shù)據(jù)刪除等。

Granite 模型根據(jù) IBM 自己的 HAP （仇恨、辱罵和臟話）檢測器審查的數(shù)據(jù)進行訓練，以檢測并根除令人反感的內容，并以內部和公共模型為基準

IBM 部署定期、持續(xù)的數(shù)據(jù)保護措施，包括監(jiān)控以盜版或其他攻擊性材料聞名的網(wǎng)站，并避開這些網(wǎng)站

模型訓練

第一階段預訓練過程，granite.13b 基礎模型經過 30 萬次迭代訓練，批量大小為 4M 個 Token，總共 1 萬億個 Token。預訓練讓大模型根據(jù)輸入生成文本。

第二階段監(jiān)督微調過程，使用來自不同來源的數(shù)據(jù)集混合執(zhí)行監(jiān)督微調，每個示例都包含一個提示和一個答案，執(zhí)行3個周期獲得 granite.13b.instruct 模型。

第三階段對比微調過程，懲罰來自負數(shù)據(jù)分布的數(shù)據(jù)點概率，同時增加來自正數(shù)據(jù)分布的數(shù)據(jù)點的概率。換句話說，我們不鼓勵大模型為每個訓練提示生成錯對齊的答案（例如有害的答案），同時鼓勵對齊的答案（例如有用的答案）。通過防止模型輸出出現(xiàn)幻覺和錯位，最后獲得 granite.13b.chat 模型。

IBM專家觀點： IBM 大模型揭秘

IBM用于訓練基礎模型的主要計算基礎設施是 AI 優(yōu)化的云原生超級計算機 Vela[2]，每個 Vela節(jié)點：

8 個 80GB A100 GPU

96 CPU

1.5TB 的DRAM

4 個3.2TB NVMe 固態(tài)硬盤

600GBps GPU 高可用網(wǎng)絡連接

1.6TB 跨機架帶寬

IBM專家觀點： IBM 大模型揭秘

granite.13b.v1 大模型是在較舊的基礎設施上訓練的，使用了 256 個A100 GPU，花費了1056 GPU Hours。而 granite.20b.code 大模型是在更新的基礎設施上訓練的，使用了768個A100 GPU。

應用場景

Granite 大模型支持所有 5 個 NLP 任務（問答、生成、提取、總結、分類），這些任務針對跨多個領域的業(yè)務目標數(shù)據(jù)進行訓練，以提供最相關的見解。IBM 訓練的 AI 模型可以通過快速的工程技術進一步定制，以滿足特定的企業(yè)任務，從而在 watsonx.ai 中實現(xiàn)更高的準確性和實現(xiàn)價值的時間。最終可以使用企業(yè)數(shù)據(jù)針對獨特的下游任務調整模型，例如，針對正在進行的以 NLP 為中心的任務進行提示調整。

企業(yè)需要的模型一定是學到企業(yè)的專用知識，當使用 IBM 開發(fā)的模型來創(chuàng)建差異化的 AI 資產時，可以進一步定制 IBM 模型以滿足特定的下游任務。通過提示工程和微調技術，客戶可以負責任地使用自己的企業(yè)數(shù)據(jù)來提高模型輸出的準確性，從而創(chuàng)造競爭優(yōu)勢。watsonx.ai 可以進行本地部署，從而實現(xiàn)數(shù)據(jù)的合規(guī)和安全。

IBM專家觀點： IBM 大模型揭秘

Granite 大模型采用了特定領域的企業(yè)數(shù)據(jù)，10% 的訓練數(shù)據(jù)來自法律和金融，這使得信用風險評估、保險 QA、對話式金融 QA 和總結等財務任務具有卓越的性能。因此，金融服務領域的客戶（銀行、保險、金融）或有法律需求的客戶，Granite 是一個值得推薦的絕佳模型。另外 Granite.13b 需要更少的 GPU 資源實現(xiàn)金融任務的卓越性能，從而實現(xiàn)更高的性價比?；?IBM Research 的初步評估和測試，涵蓋 11 種不同的金融任務，結果表明 granite-13b 是金融任務中表現(xiàn)最佳的模型之一，評估的任務包括：提供股票和財報電話會議記錄的情緒評分、對新聞標題進行分類、提取信用風險評估、總結金融長篇文本以及回答金融或保險相關問題。在測試中，granite-13b 的速度比業(yè)界 70b 的大模型快 3 倍，GPU 資源消耗減少 1/4。令人欣喜的是，granite.13b.v2 也正在緊鑼密鼓的開發(fā)訓練中，通過添加多語言的語料訓練，實現(xiàn)多語言支持。

在代碼領域，granite.20b.code 分為 cobol 和 ansible 的兩個變體，granite.20b.code.cobol 可在 IBM Z 上更快地將 COBOL 語言轉換為 Java 語言，從而提高開發(fā)人員的工作效率；而granite.20b.ansible 旨在為 IT 運營自動化生成 ansible 劇本。

治理和管控

IBM 的 AI 開發(fā)方法以基于信任和透明度承諾的核心原則為指導，堅信要負責任地創(chuàng)建、部署和利用 AI 模型來推動業(yè)務創(chuàng)新。

在 Granite 模型開發(fā)中利用 watsonx.governance 進行基礎模型生命周期治理，通過基準測試評估模型質量，打包并標記通過測試的模型，創(chuàng)建模型名片，記錄模型細節(jié)，合并數(shù)據(jù)名片與模型名片，形成模型事實。支持大模型特定指標收集和警報，提升公平性和責任（例如監(jiān)控濫用和褻瀆行為），通過源屬性解釋大模型輸出，提供大模型使用指南和最佳實踐。

IBM專家觀點： IBM 大模型揭秘

采用生成式 AI 的首要障礙是對數(shù)據(jù)血緣或來源的擔憂，為了更好地理解為其智能系統(tǒng)提供數(shù)據(jù)的數(shù)據(jù)，通過IBM 最新收購的數(shù)據(jù)血緣廠商 Manta [3]，提高了watsonx 內部的透明度，以便企業(yè)可以確定其 AI 模型和系統(tǒng)是否使用了正確的數(shù)據(jù)、數(shù)據(jù)的起源、演變方式以及數(shù)據(jù)流中的任何差異。

總結

考慮到開放和單一模型無法滿足每個業(yè)務用例的獨特需求，Granite 系列正在開發(fā)不同參數(shù)大小的模型。同時 IBM 定期從開源大模型中從性能、倫理、法律、數(shù)據(jù)等角度選擇和審查商業(yè)適用性最合適的更新到 watsonx 平臺中。借助這些模型和 watsonx，幫助企業(yè)成為 AI 價值創(chuàng)造者，可以將企業(yè)專有數(shù)據(jù)引入 IBM 大模型和開源模型，構建適合其業(yè)務和用例的獨特模型。

l 面向平臺的方法：watsonx 是一個在 OpenShift 上運行的平臺，具有 AI 推理功能并運行 Ray 和 PyTorch 等開源技術。客戶可以將其部署在自己選擇的基礎架構中，從而可以安全地與企業(yè)數(shù)據(jù)集成。采用私有化部署，無需額外擔心數(shù)據(jù)安全和主權。

l 客戶保護: IBM 標準的知識產權保護（與其為硬件和軟件產品提供的知識產權保護相類似）將適用于由 IBM 開發(fā)的 watsonx 模型。IBM 為其基礎模型提供 IP 賠償（合同保護），使其客戶能夠更有信心地使用他們的數(shù)據(jù)來構建AI ，這是生成式 AI 競爭優(yōu)勢之所在?？蛻艨梢允褂盟麄冏约旱臄?shù)據(jù)和由IBM 基礎模型所提供的客戶保護、準確性和信任來開發(fā)他們的 AI 應用程序。

l 數(shù)據(jù)和人工智能治理：隨著監(jiān)管人工智能，全球客戶面臨著利用人工智能安全創(chuàng)造價值的壓力。 IBM watsonx 擁有全面、領先的 AI 和數(shù)據(jù)治理產品組合，提供模型治理、監(jiān)控，獨有的仇恨、辱罵和臟話檢測過濾器，支持管理監(jiān)管要求，以便客戶能夠以負責任、安全和合乎道德的方式擴展 AI。

參考資料：
[1] https://www.ibm.com/downloads/cas/X9W4O6BM
[2] https://research.ibm.com/blog/AI-supercomputer-Vela-GPU-cluster
[3] https://newsroom.ibm.com/IBM-acquires-Manta-Software-Inc-to-complement-data-and-AI-governance-capabilities

關于IBM

IBM 是全球領先的混合云、人工智能及企業(yè)服務提供商，幫助超過 175 個國家和地區(qū)的客戶，從其擁有的數(shù)據(jù)中獲取商業(yè)洞察，簡化業(yè)務流程，降低成本，并獲得行業(yè)競爭優(yōu)勢。金融服務、電信和醫(yī)療健康等關鍵基礎設施領域的超過 4000 家政府和企業(yè)實體依靠 IBM 混合云平臺和紅帽O(jiān)penShift 快速、高效、安全地實現(xiàn)數(shù)字化轉型。IBM 在人工智能、量子計算、行業(yè)云解決方案和企業(yè)服務方面的突破性創(chuàng)新為我們的客戶提供了開放和靈活的選擇。對企業(yè)誠信、透明治理、社會責任、包容文化和服務精神的長期承諾是 IBM 業(yè)務發(fā)展的基石。了解更多信息，請訪問：https://www.ibm.com/cn-zh

IBM 大模型 Granite

一周熱門

江波龍存儲出海

江波龍完成對巴西SMART Modular公司的股權收購，持有81%的股份，并更名為Zilia（智憶巴西）。為何江波龍做
低空飛行器與城市智慧立體交通國際學術會

9月6-7日，第二屆SAE 2024低空飛行器與城市智慧立體交通國際學術會議在杭州舉行，吸引了來自國內外低空飛行器、航空
大華股份鴻鵠智能物聯(lián)主機

作為全球首款采用全國產化硬件鴻蒙系統(tǒng)物聯(lián)主機，大華鴻鵠主機采用寬溫設計，雙板雙控，具備4000+海量協(xié)議和22Tops超

IBM專家觀點： IBM 大模型揭秘

相關閱讀

一周熱門