- 發佈於
12/15-12/31 AI 新知
- 作者

- 作者
- ChrisTorng
語言
OpenAI Begins Tackling ChatGPT Data Leak Vulnerability 攻擊 ChatGPT 之問題已開始解決,但仍不完美
An In-depth Look at Gemini's Language Abilities 評測說 Gemini Pro 英文略遜於 GPT-3.5 Turbo,但翻譯能力較強
Phi-2: The surprising power of small language models - Microsoft Research 微軟推出的 2.7B 小模型,某些方面能力可與 25 倍大的模型相當
(Long)LLMLingua | Designing a Language for LLMs via Prompt Compression [開源][論文] 微軟使用小模型將輸入文字壓縮 (去掉不重要部份),效能損失極微,壓縮率可高達 20 倍! 可用於輸入更長文本,減少成本、加快速度,正確率甚至還可能提升!
How we built "Mistral 7B Fine-Tune Optimized," the best 7B model for fine-tuning [開源] Mistral 7B 微調模型竟可超越 GPT-4! 合併兩個模型可以獲得部份甚至全部能力!
yule-BUAA/MergeLM: Codebase for Merging Language Models [開源] 可將模型 90~99% 參數設為零不影響效能,再將同源不同模型以參數平均合併為新模型,一次獲得多個模型的能力
SJTU-IPADS/PowerInfer: High-speed Large Language Model Serving on PCs with Consumer-grade GPUs [開源] PowerInfer 可在消費級 4090 上跨各種 LLM (包括 Llama 2 系列/Falcon-40B) 以平均超過 13 Tokens 速度進行推理,只比 A100 慢 18%
Paper page - LLM in a flash: Efficient Large Language Model Inference with Limited Memory [開源] 將超大模型放在 Flash 記憶體 (SSD?) 中推理的方法
How to make LLMs go fast 理解 LLM 加速之各種技術
Time is Encoded in the Weights of Finetuned Language Models [論文] 建立時間向量,微調 LLM 以針對週期性資訊有更佳推論成果
Weight Subcloning: Direct Initialization of Transformers Using Larger Pretrained Ones [論文] 權限壓縮複製為小模型以達成小模型快速遷移學習
Discovering Latent Knowledge in Language Models Without Supervision [論文] 搜尋語言模型的內部知識,避免幻覺或說謊的問題
Mapping the semantic void: Strange goings-on in GPT embedding spaces GPT-J 的 4096 維空間 tokens 存在於兩個超球殼交集間。另先前發現的特異故障 tokens 多數接近質心 (也有遠離的),可能因為訓練期的資料不多,因此接近於原始的隨機初始值
影像
Imagen 2 on Vertex AI is now generally available Google Imagen 2 企業級文字生影像模型,還可生成影像內文字及 logo,可以問答及支援多國語言
Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models 漸變調整圖像生成樣式
TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering [開源] 包含高品質文字之圖像生成
多模態
VideoPoet Google Research 推出可接受文字/圖像/影片輸入,生成短影片/音訊
apple/ml-ferret [開源] Apple 針對指定影像區域對話之非商業用途模型
3D-GPT: 3D MODELING WITH LARGE LANGUAGE MODELS 以 LLM 指導 3D 建模框架
Visualize Mixtral MoE 視覺化理解多模態 Mixtral 領域專家分佈
CyberRunner AI 學習控制實體彈珠迷宮破人類紀錄
工具
microsoft/windows-ai-studio Windows AI Studio 可下載模型、微調、測試,並在 Windows 程式中使用成果
VRAM Calculator 計算必要 VRAM 大小之線上工具
h2oai/h2ogpt [開源] 用本機 LLM 查詢本機文件工具
Meet 'Coscientist,' your AI lab partner AI 搜尋化合物資訊,自行執行實驗並檢驗成品效果
趨勢
Preparedness OpenAI 如何分級預備應對未來更強大的模型風險
Advancements in machine learning for machine learning Google 研究以機器學習方法提升機器學習效率
AI Trends - Epoch 簡單地呈現許多重要的 AI 相關發展數據
2023: The Year of AI. The most remarkable releases, partnerships, and legal debates 介紹整年 AI 的重要成果
NLP Research in the Era of LLMs - by Sebastian Ruder 提出五個不需大量運算的研究方向
DreamCoder: Growing generalizable, interpretable knowledge with wake-sleep Bayesian program learning [論文] 機器自行尋找出可解釋的演算法,還有睡眠模式由自行生成假想資料集離線學習
The Scale of the Brain vs Machine Learning 人腦與現今 AI 的運算規模類比,推估現今各 AI 與人腦各區域之規模差異及可能發展方向