技术笔记

AI 基础知识入门AI 基礎知識入門

发布于 2026-05-11

AI入门LLMAgent教程机器学习

🤔 什么是人工智能？

人工智能 = 让机器像人一样看 👁️ + 听 👂 + 说 🗣️ + 思考 🧠 + 做决定 ✅

打个比方：你让一部手机识别一张照片里是猫还是狗——这就是 AI。你让地图 App 算出一条最快的路——这也是 AI。

🧩 AI 的核心三要素

就像做菜需要 食材 + 菜谱 + 锅灶，AI 也需要三样东西：

要素	比喻	说明
📊 数据	🥩 食材	学习的素材（文字、图片、语音等）
⚙️ 算法	📖 菜谱	学习的方法（怎么从数据中找规律）
💻 算力	🔥 灶火	硬件基础（GPU 显卡集群）

💡 2020 年代 AI 爆发的根本原因，就是这三样东西同时达到了临界点——互联网积累了海量数据，科学家发明了更好的算法，显卡厂商造出了更强的芯片。

📌 你身边的 AI（你可能每天都在用！）

你在做什么	背后是什么 AI	举个🌰
📱 刷脸解锁手机	人脸识别	Face ID 扫一下你的脸
🗺️ 导航去公司	路径规划	高德/百度地图算最快路线
🎵 听每日推荐歌单	推荐系统	网易云/Spotify 猜你喜欢
📸 拍照自动美颜	计算机视觉	手机相机自动磨皮瘦脸
⌨️ 输入法联想词	语言模型	你打「今天天」→ 它猜「气不错」
🎬 刷抖音停不下来	推荐算法	根据你的点赞推更多视频
📧 垃圾邮件自动拦截	文本分类	Gmail 自动把广告扔进垃圾箱

🔄 AI 编程 vs 传统编程：有什么不一样？

传统编程：  程序员写规则 → 计算机照着规则执行
            "如果温度>30度，就开空调"

AI 编程：   给计算机看大量例子 → 计算机自己学会规则
            "给你 10000 张猫和狗的图片，自己学会分辨"

🏗️ AI 三大门派（机器学习类型）

目前主流 AI 都靠「机器学习」实现。主要有三种学习方法：

① 🎓 监督学习 —「有答案的练习题」

怎么学：给 AI 一堆「题目 + 正确答案」，让它自己琢磨规律。

🧪 举个例子：

给你 10,000 张照片，每张都标好了「🐱 猫」或「🐶 狗」。你反复看，慢慢就知道猫耳朵尖、狗耳朵圆。新来一张没见过的猫照片，你一眼就能认出来。

📋 常见用途：

任务	说明	例子
分类	判断是 A 还是 B	垃圾邮件检测（是/否）
预测	猜一个数字	根据面积/位置预测房价

② 🔍 无监督学习 —「没有答案的素材」

怎么学：只给 AI 一堆素材，不告诉它答案，让它自己发现规律。

🧪 举个例子：

给你 10,000 个电商用户的购物记录，没告诉你任何人是什么类型。你自己看数据，发现有些人总买便宜货、有些人只买大牌、有些人每周都买——你自动把他们分成三类。

📋 常见用途：

任务	说明
客户分群	把用户分成「价格敏感型」「品牌忠诚型」等
异常检测	找出和别人不一样的那个（比如银行卡盗刷）

③ 🎮 强化学习 —「玩游戏学经验」

怎么学：AI 自己动手试错，做对了给糖吃🍬，做错了打手心📏。

🧪 举个例子：

让 AI 学下象棋。它自己跟自己下几百万盘——赢了得 1 分，输了扣 1 分。下得越多，就知道什么走法容易赢。AlphaGo 就是这么打败世界冠军的。

📋 常见用途：🤖 机器人控制、🚗 自动驾驶、🎮 游戏 AI

📊 AI 的能力分级

根据聪明程度，AI 分为三个等级：

等级	图标	能力	现在有了吗？
ANI	🟢	只会做一种事（比如只会下棋、只会翻译）	✅ 我们现在用的全是这个
AGI	🟡	像人一样什么都会（既能写诗又能修电脑）	⏳ 快到了，但还没有
ASI	🔴	比全人类加起来还聪明	❓ 纯属科幻

💡 现状科普：即使是最强的 ChatGPT 或 DeepSeek V4，本质上也只是「超级文字接龙游戏」——它并不真正「理解」自己在说什么，只是根据上文猜哪个词最合适。但因为它见过的文字实在太多（几乎整个互联网），看起来就像真的懂了。

⏱️ AI 大事记（一张图看 70 年）

年份	事件	图标	意义
1956	达特茅斯会议	🎓	AI 正式「出生」
1997	深蓝打败国际象棋冠军	♟️	规则 AI 的巅峰
2012	AlexNet 赢得图像识别大赛	🏆	深度学习崛起
2016	AlphaGo 打败李世石	🏅	AI 震惊全世界
2017	Google 发表 Transformer 论文	📄	所有现代 AI 的基石
2022	ChatGPT 发布	🚀	AI 进入大众生活
2024	DeepSeek R1 发布	🇨🇳	国产 AI 开始逆袭
2025	AI Agent 概念火爆	🤖	从聊天走向做事
2026	DeepSeek V4 / GPT-5	💥	AI 进入「代理人」时代

🧠 大语言模型（LLM）是怎么工作的？

LLM = Large Language Model = 大语言模型

ChatGPT、DeepSeek、Claude、Gemini……这些你听过的 AI 产品，底层都是 LLM。

🎯 一句话说清

LLM 的本质 = 超级智能版的「输入法联想词」

你用输入法打「今天天」，输入法会猜「气不错」。LLM 做的是同一件事，但规模大了 1 亿倍——它读过互联网上几乎所有的书、文章、代码，所以它猜出来的不只是一个词，而是一整段有逻辑的回答。

举个例子：

你输入：「请用 Python 写一个排序算法，」
LLM 心里想：「根据我读过的几百万份代码，这里最合理的下文是……」
LLM 输出：「def bubble_sort(arr): ...」

🏭 LLM 是怎么「造」出来的？

造一个 LLM 需要三步，好比培养一个孩子：

🟢 第一步：预训练（读万卷书）
    ↓ 模型阅读整个互联网（数万亿字），学会语言和知识
    ↓ ⏱️ 耗时数月 | 💰 花费数亿人民币 | 🔥 用几万张显卡

🟡 第二步：指令微调（上学）
    ↓ 用优质的「问答对」教模型怎么回答问题
    ↓ ⏱️ 耗时数周 | 💰 花费几百到几千万

🔴 第三步：人类反馈强化学习（学做人）
    ↓ 人类对模型的回答「好评/差评」，模型学习什么回答更好
    ↓ 目的是让输出更有用、更安全

🔑 几个你一定要知道的概念

概念	🍎 比喻	说明	最新数据
Token 🪙	AI 的最小「语言单位」	中文≈1字=1Token，英文≈3字母=1Token	每条消息几百~几千 Token
上下文窗口 🪟	AI 的「短期记忆」大小	模型一次能看多长的文字	DeepSeek V4 支持 100 万 Token（≈三本《三体》）
参数 🧮	模型的「脑细胞」数量	越多通常越聪明	DeepSeek V4-Pro 共 1.6 万亿参数
MoE 架构 🏢	不叫所有员工干活	只叫需要的「专家」处理任务，省电又高效	1.6T 总参数但每次只激活 49B

🏛️ Transformer 到底是什么？

2017 年 Google 发了一篇论文叫《Attention Is All You Need》，提出了 Transformer 架构。所有现代 LLM 都用这个架构。

核心创新：注意力机制

📖 读句子时，有些词之间有关系，有些没有：

「小明把书包放在桌上，然后他拿出了书。」

👆 注意力机制能让模型知道：这里的「他」=「小明」，不是「书包」也不是「桌子」。

模型会计算每个词和其他所有词的「关联强度」，越相关的词注意力分数越高。

为什么 Transformer 这么牛？

优势	原来（老架构 RNN）	现在（Transformer）
⚡ 速度	一个字一个字处理，很慢	所有字一起处理，快了 100 倍
🔗 长距离	隔远了就记不住	再远也能关联上
📈 可扩展	加数据效果不明显	加数据效果越来越好

🤖 AI Agent：从「聊天」到「做事」

AI Agent（AI 智能体） 是 2025~2026 年最重要的 AI 进化方向。

一张表看懂区别

对比	🗣️ 普通聊天 AI	🤖 AI Agent
你会	「怎么整理桌面？」	「帮我整理桌面！」
AI 反应	告诉你步骤 📝	直接帮你搞定 ✅
能搜索吗	❌ 不能，只能凭训练数据回答	✅ 实时联网搜索
能操作文件吗	❌ 不行	✅ 能读写、移动、删除
能设闹钟吗	❌ 不行	✅ 能设每天早上的定时任务
能记住你吗	❌ 每次对话都失忆	✅ 记得你的偏好和历史

🍎 一句话比喻：

普通聊天 AI = 🧙‍♂️ 被关在房间里的智者，能给你建议但不能动手

AI Agent = 🧑‍💼 有手有脚的管家，你说一句话它就帮你办完

🔄 Agent 的工作流程

你发消息「帮我查今天AI新闻并总结」
        ↓
🤖 AI 大脑思考：「用户要 AI 新闻 → 先搜索 → 再看结果 → 最后总结」
        ↓
🔍 搜索工具：搜索 "AI news today 2026"
        ↓
📥 收到结果：10 条新闻链接
        ↓
🤖 AI 再思考：「需要逐个阅读并提炼重点」
        ↓
📝 根据结果生成总结
        ↓
✅ 回复你：「今天的 AI 新闻有三大重点：……」

🛠️ AI Agent 能做什么？

类别	能做的事	🌰 例子
📧 办公	写邮件、整理文档、做表格	「帮我给张总发邮件，问下周会议时间」
🔍 搜索	实时查信息、研究课题	「搜索一下今年最值得买的手机推荐」
💻 编程	写代码、修 Bug、部署	「帮我写一个 Python 脚本，每天备份数据库」
⏰ 定时	定时推送、自动巡检	「每天早上 9 点推送昨天的 AI 新闻」
📊 分析	数据分析、生成报告	「分析这个 Excel，找出销量下降的原因」

🏆 主流 AI 模型怎么选？（2026 年版）

🌍 国外模型

模型	🏢 公司	✨ 特长	💰 价格	适合谁
GPT-5 🥇	OpenAI	综合最强，什么都会	💸 贵	不差钱的企业
Claude Sonnet 4 🥈	Anthropic	编程超强，安全靠谱	💸 贵	程序员
Gemini 2.5 Pro 🥉	Google	超长上下文（200万Token）	💸 中	需要处理超大文档

🇨🇳 国产模型

模型	🏢 公司	✨ 特长	💰 价格	适合谁
DeepSeek V4-Pro 🏆	深度求索	Agent 最强，开源，1M上下文	🟢 极低	AI 开发者、重度用户
DeepSeek V4-Flash ⚡	深度求索	速度最快，性价比之王	🟢 白菜价	日常使用首选
Qwen3.6-Plus	阿里	中文最好，超长上下文	🟢 低	中文场景
GLM-5	智谱	MIT 开源，可自部署	🟢 免费/低	自己搭建
Kimi K2.5	月之暗面	代码好，长文本强	🟢 低	编程+长文档

💰 价格对比（良心推荐）

DeepSeek V4-Flash  🟩🟩🟩🟩🟩  白菜价  每月几块钱
DeepSeek V4-Pro    🟩🟩🟩🟩⬜  便宜    每月几十块
GPT-5              🟩🟩⬜⬜⬜  很贵    每月几百上千
Claude Sonnet 4    🟩🟩⬜⬜⬜  很贵    每月几百上千

🎯 给普通用户的建议：日常用 DeepSeek V4-Flash 就够了，又快又便宜。写代码或复杂任务切换到 DeepSeek V4-Pro。国产模型的价格只有国外顶级模型的 1/100 左右——这意味着 AI 已经从「奢侈品」变成了「日常消费品」。

✍️ 提示工程：怎么让 AI 乖乖听话

提示（Prompt） = 你对 AI 说的话。一条好的提示能让 AI 的回答质量翻十倍。

📐 黄金公式

🎭 [角色] + 📋 [任务] + 📂 [上下文] + 📝 [格式要求] + ⚠️ [约束条件]

6 种实用技巧

① 🎭 给 AI 一个身份

❌ 「帮我写一封邮件」
✅ 「你是一个有 10 年经验的商务谈判专家，请帮我写一封给供应商的邮件，
    要求对方降价 5%。语气要专业但不失礼貌。」

② 📚 给几个例子（Few-Shot）

先给 AI 看 2-3 个例子，它就能照猫画虎：

「以下是对几条评论的情感分析：
"这菜太难吃了" → 负面
"风景真美啊" → 正面
"还行吧，一般" → 中性
现在分析这句："绝对是我吃过最好吃的蛋糕！" → 」

③ 🧩 让 AI 分步思考（Chain-of-Thought）

❌ 「小明有 5 个苹果，给了小红 2 个，又买了 3 个，现在有几个？」

✅ 「让我们一步步分析：
   1️⃣ 开始有 5 个苹果
   2️⃣ 给了小红 2 个：5 - 2 = 3
   3️⃣ 又买了 3 个：3 + 3 = 6
   所以答案是 6 个。」

④ 📊 指定输出格式

「分析以下数据，用 JSON 格式输出：
   {"平均分": 85, "最高分": 98, "最低分": 62}」

⑤ ⛔ 告诉 AI 不要做什么（反面提示）

「用 100 字以内总结。不要用"首先/其次/最后"这种词。不要添加个人评价。」

⑥ 🔄 迭代追问

先要大纲 → 再展开某一点 → 再深入细节
「给我一个关于气候变化的文章大纲」
「请展开第三点」
「请用表格对比第一点和第三点的数据」

⚠️ 新手常犯的错误

❌ 错误	✅ 正确
「写个代码」	「用 Python 写一个 REST API，三个接口：登录、注册、查资料」
一次说 10 个需求	分步骤，一次说清楚一个
指望 AI 记住 1 小时前的对话	关键信息重复一遍
说「随便」	告诉 AI 你要什么风格、多长、什么语气

🔮 2026 年 AI 趋势

🚀 趋势一：AI Agent 全面落地

AI 从「聊天」走向「做事」。40% 的企业计划在 2026 年用上 AI Agent。就像智能手机取代功能机——不是因为它能打电话，而是因为它能解决所有问题。

🇨🇳 趋势二：国产 AI 全面崛起

DeepSeek、Qwen、GLM 等国产模型在性能上追平海外，价格只有 1/100。中国模型在 OpenRouter 上的全球使用占比已达 30%。

🎤 趋势三：语音 AI 新体验

AI 能实时对话、听懂语气和情感。语音交互正在成为 AI 的新入口——可能像 2007 年 iPhone 触屏那样改变一切。

📈 趋势四：AI 用量暴增

全球 AI 消耗量从 2024 到 2025 年增长了 10 倍。一次简单对话 = 几百 Token，一个 AI Agent 完成任务 = 几十万 Token。AI 正在从「偶尔用用」变成「天天在用」。

🔄 AI 进化路线图

2022 🗣️  对话 AI    你问我答     → ChatGPT
2024 🧠  推理 AI    深度思考     → DeepSeek R1
2025 🛠️  工具 AI    会用工具     → Copilot
2026 🤖  Agent 时代  自主做事     → Hermes Agent

⚠️ AI 的缺点（看这篇就够了）

了解 AI 的不足同样重要：

① 🤥 幻觉 —— AI 会睁眼说瞎话

AI 本质是猜词游戏，它没有「真相」的概念。它可能编造出看起来很像回事的假新闻、假数据、假论文。

🛡️ 怎么办：关键信息一定要自己验证，不要轻信 AI 的一面之词。

② 📖 真的懂了吗？—— 并没有

AI 能写出很漂亮的代码，但它可能完全不理解代码的逻辑。它在「模仿」而不是「理解」。

③ 🪟 记不住太长的话

即使是最强的模型，处理长文档时也会「忘记」中间的部分。一次性给它 100 页 PDF，它能记住大概 70% 就不错了。

④ ⚖️ 有偏见

训练数据里有什么偏见，AI 就会学到什么偏见。比如互联网上关于「医生」的描述大多是男性，AI 就可能认为医生 = 男性。

⑤ ☠️ 安全问题

如何确保 AI 按人类的意愿做事，不去做坏事？这是目前 AI 研究的头号难题。

✅ 使用 AI 的正确心态

AI = 🛠️ 强大的工具，不是 🔮 万能的答案机器

✅ 用它提高效率，节省时间 ✅ 把它当成「助理」，不是「专家」 ✅ 做好的东西自己检查一遍 ✅ 保持独立思考

📅 最后更新：2026-05-11 | 🤖 由 Hermes Agent 辅助编写 | 📖 参考了 AI Agent 完全入门指南

🤔 人工知能（AI）とは？

人工知能 = 機械に見る 👁️ + 聞く 👂 + 話す 🗣️ + 考える 🧠 + 決断する ✅ を人間のようにさせる技術

たとえば、スマートフォンに写った写真が猫か犬かを判別させる——これがAIです。地図アプリに最短ルートを計算させる——これもAIです。

🧩 AIの3つの核心要素

料理に 食材＋レシピ＋コンロ が必要なように、AIにも3つの要素が必要です：

要素	たとえ	説明
📊 データ	🥩 食材	学習の素材（テキスト、画像、音声など）
⚙️ アルゴリズム	📖 レシピ	学習の方法（データからどうパターンを見つけるか）
💻 計算能力	🔥 コンロの火	ハードウェア基盤（GPUクラスターなど）

💡 2020年代にAIが爆発的に普及した根本的な理由は、この3つ全てが同時に臨界点に達したからです——インターネットに膨大なデータが蓄積され、科学者がより優れたアルゴリズムを発明し、GPUメーカーがより高性能なチップを製造したのです。

📌 身の回りのAI（毎日使ってるかも！）

あなたの行動	背後にあるAI	例
📱 顔認証でスマホをロック解除	顔認識	Face IDであなたの顔をスキャン
🗺️ 会社までの経路検索	経路計画	Googleマップ／Yahoo!地図で最短ルートを計算
🎵 おすすめプレイリストを聴く	レコメンドシステム	Spotifyがあなたの好みを予測
📸 写真を撮って自動で美肌加工	コンピュータビジョン	スマホカメラが自動で肌をなめらかに
⌨️ 入力予測	言語モデル	「今日の天」→「気は？」と予測
🎬 動画アプリが止まらない	レコメンドアルゴリズム	「いいね」に基づいて関連動画を次々と
📧 スパムメールを自動ブロック	テキスト分類	Gmailが自動的に広告メールを迷惑メールフォルダへ

🔄 AIプログラミング vs 従来のプログラミング：何が違う？

従来のプログラミング：  プログラマーがルールを書く → コンピュータがその通りに実行
            「もし気温が30度を超えたら、エアコンをつける」

AIプログラミング：    コンピュータに大量の例を見せる → コンピュータが自分でルールを学ぶ
            「猫と犬の画像を10000枚見せて、自分で見分ける方法を学ばせる」

🏗️ AIの3つの流派（機械学習の種類）

現在の主流なAIはすべて「機械学習」で実現されています。主に3つの学習方法があります：

① 🎓 教師あり学習 —「答え付きの練習問題」

学び方：AIに「問題＋正解」のペアを大量に与え、自分で法則を見つけさせます。

🧪 例え話：

10,000枚の写真が与えられ、それぞれに「🐱 猫」か「🐶 犬」のラベルがついています。何度も見ているうちに、猫の耳は尖っていて、犬の耳は丸いことがわかってきます。初めて見る猫の写真でも、一目で見分けられるようになります。

📋 よくある用途：

タスク	説明	例
分類	AかBかを判別	スパムメール検出（はい／いいえ）
予測	数値を推測	面積や立地から住宅価格を予測

② 🔍 教師なし学習 —「答えのない素材」

学び方：AIに素材だけを与え、正解は教えずに自分で法則を見つけさせます。

🧪 例え話：

10,000件のECユーザーの購買記録が与えられ、誰がどんなタイプかは教えられていません。データを見ていると、いつも安いものだけを買う人、ブランド品だけを買う人、毎週買い物をする人がいることに気づき——自然に3つのグループに分類できます。

📋 よくある用途：

タスク	説明
顧客セグメンテーション	ユーザーを「価格敏感型」「ブランド忠誠型」などに分類
異常検知	他と違うものを見つけ出す（例：クレジットカードの不正利用）

③ 🎮 強化学習 —「ゲームで学ぶ経験則」

学び方：AIが自ら試行錯誤し、正解すればご褒美🍬、間違えればお仕置き📏。

🧪 例え話：

AIに将棋を覚えさせます。何百万局も自分自身と対戦し——勝てば＋1点、負ければ−1点。たくさん指すうちに、どんな手が勝ちにつながるかを学習します。AlphaGoはこうして世界チャンピオンを打ち負かしたのです。

📋 よくある用途：🤖 ロボット制御、🚗 自動運転、🎮 ゲームAI

📊 AIの能力レベル

賢さの度合いによって、AIは3つのレベルに分類されます：

レベル	アイコン	能力	今ある？
ANI	🟢	1つのことしかできない（将棋だけ、翻訳だけなど）	✅ 今使われているのは全部これ
AGI	🟡	人間のように何でもできる（詩を書きながらPC修理も）	⏳ 近づいてはいるが、まだない
ASI	🔴	全人類を合わせたよりも賢い	❓ 完全にSFの世界

💡 現状の解説：最も強力なChatGPTやDeepSeek V4でさえ、本質的には「超高性能な文字続きゲーム」に過ぎません——自分が何を言っているかを本当に「理解」しているわけではなく、文脈から最も適切な次の単語を推測しているだけです。ただし、見てきたテキストの量が桁違いに多い（ほぼインターネット全体）ため、あたかも本当に理解しているように見えるのです。

⏱️ AI略年表（70年を一覧で）

年	出来事	アイコン	意義
1956	ダートマス会議	🎓	AI正式に「誕生」
1997	Deep Blueがチェス世界王者に勝利	♟️	ルールベースAIの頂点
2012	AlexNetが画像認識コンテストで優勝	🏆	ディープラーニングの台頭
2016	AlphaGoが李世石に勝利	🏅	AIが世界を震撼させる
2017	GoogleがTransformer論文を発表	📄	現代AIの基盤
2022	ChatGPTの公開	🚀	AIが一般生活に浸透
2024	DeepSeek R1の公開	🇨🇳	中国製AIの逆襲開始
2025	AI Agentのコンセプトが大流行	🤖	会話から行動へ
2026	DeepSeek V4 / GPT-5	💥	AIが「エージェント」時代に突入

🧠 大規模言語モデル（LLM）の仕組み

LLM = Large Language Model = 大規模言語モデル

ChatGPT、DeepSeek、Claude、Gemini……あなたが聞いたことのあるAI製品は、すべてLLMをベースにしています。

🎯 一言でいうと

LLMの本質 = 超高性能版「入力予測」

あなたがスマホで「今日の天」と打つと、入力予測が「気は？」と提案します。LLMも同じことをやっていますが、規模が1億倍違うのです——インターネット上のほぼすべての本、記事、コードを読んでいるので、予測するのは1単語だけでなく、論理的な回答全体になります。

例：

あなたの入力：「Pythonでソートアルゴリズムを書いてください。」
LLMの思考：「読んできた何百万ものコードによると、ここで最も適切な続きは……」
LLMの出力：「def bubble_sort(arr): ...」

🏭 LLMはどうやって「作られる」の？

LLMを作るには3つのステップが必要です。子育てに例えてみましょう：

🟢 ステップ1：事前学習（たくさんの本を読む）
    ↓ モデルがインターネット全体（数兆語）を読み、言語と知識を習得
    ↓ ⏱️ 数ヶ月 | 💰 数十億円 | 🔥 数万枚のGPUを使用

🟡 ステップ2：指示チューニング（学校に行く）
    ↓ 良質な「QAペア」を使って、モデルに質問への答え方を教える
    ↓ ⏱️ 数週間 | 💰 数百万〜数千万円

🔴 ステップ3：人間のフィードバックによる強化学習（社会性を学ぶ）
    ↓ 人間がモデルの回答に「いいね／よくない」をつけ、モデルがより良い回答を学習
    ↓ 目的は、より有用で安全な出力にすること

🔑 知っておくべき重要コンセプト

概念	🍎 たとえ	説明	最新データ
Token 🪙	AIの最小「言語単位」	日本語≒1文字≒1Token、英語≒3文字≒1Token	1メッセージあたり数百〜数千Token
コンテキストウィンドウ 🪟	AIの「短期記憶」サイズ	モデルが一度に処理できるテキスト量	DeepSeek V4は 100万Token（約『三体』3冊分）に対応
パラメータ 🧮	モデルの「脳細胞」数	多いほど通常は賢い	DeepSeek V4-Proは 1.6兆パラメータ
MoEアーキテクチャ 🏢	全社員は呼ばない	必要な「専門家」だけを起動して処理。省エネで高効率	総パラメータ1.6Tだが、毎回アクティブになるのは49Bのみ

🏛️ Transformerとは何か？

2017年、Googleが論文『Attention Is All You Need』を発表し、Transformer アーキテクチャを提案しました。現代のLLMはすべてこのアーキテクチャを採用しています。

核心となる革新：アテンション機構

📖 文章を読むとき、単語によって関連性があるものとないものがあります：

「太郎はカバンを机の上に置いて、彼は本を取り出した。」

👆 アテンション機構によって、モデルはこの「彼」＝「太郎」であり、「カバン」でも「机」でもないことを認識できます。

モデルは各単語と他のすべての単語の「関連度」を計算し、関連性が高いほどアテンションスコアが高くなります。

なぜTransformerはこんなに優れているのか？

メリット	従来（RNN）	現在（Transformer）
⚡ 速度	1単語ずつ処理、遅い	全単語を同時に処理、100倍高速
🔗 長距離依存	離れると記憶できない	遠く離れていても関連付け可能
📈 スケーラビリティ	データを増やしても効果が薄い	データを増やすほど効果が向上

🤖 AI Agent：「会話」から「行動」へ

AI Agent（AIエージェント） は2025〜2026年における最も重要なAI進化の方向性です。

違いがひと目でわかる比較表

比較項目	🗣️ 普通の会話AI	🤖 AI Agent
あなたの指示	「デスク周りをどう整理すればいい？」	「デスク周りを整理して！」
AIの反応	手順を教えてくれる 📝	直接やってくれる ✅
検索できる？	❌ できない。学習データのみで回答	✅ リアルタイムにインターネット検索
ファイル操作できる？	❌ できない	✅ 読み書き、移動、削除が可能
アラームを設定できる？	❌ できない	✅ 毎朝の定時タスクを設定可能
あなたを覚えられる？	❌ 毎回会話がリセットされる	✅ あなたの好みや履歴を記憶

🍎 一言でたとえると：

普通の会話AI = 🧙‍♂️ 部屋に閉じ込められた賢者。アドバイスはくれるけど動けない

AI Agent = 🧑‍💼 手足のある執事。あなたが一言言えば全部やってくれる

🔄 Agentのワークフロー

あなたが「今日のAIニュースを調べてまとめて」とメッセージを送信
        ↓
🤖 AIが思考：「ユーザーはAIニュースが欲しい → まず検索 → 結果を見る → 最後にまとめる」
        ↓
🔍 検索ツール：「AI news today 2026」を検索
        ↓
📥 結果を受信：10件のニュースリンク
        ↓
🤖 AIが再思考：「1つずつ読んで重要なポイントを抽出する必要がある」
        ↓
📝 結果をもとに要約を生成
        ↓
✅ 返信：「今日のAIニュースには3つの大きなトピックがあります：……」

🛠️ AI Agentは何ができる？

カテゴリ	できること	🌰 例
📧 オフィス業務	メール作成、文書整理、表計算	「山田部長に来週の会議日程を問い合わせるメールを送って」
🔍 検索	リアルタイム情報収集、リサーチ	「今年一番おすすめのスマホを検索して」
💻 プログラミング	コード作成、バグ修正、デプロイ	「毎日データベースをバックアップするPythonスクリプトを書いて」
⏰ スケジュール	定期プッシュ、自動巡回	「毎朝9時に昨日のAIニュースをプッシュして」
📊 分析	データ分析、レポート生成	「このExcelを分析して、売上が落ちた理由を見つけて」

🏆 主要AIモデルの選び方（2026年版）

🌍 海外モデル

モデル	🏢 会社	✨ 得意分野	💰 価格	こんな人に
GPT-5 🥇	OpenAI	総合力No.1、何でもできる	💸 高い	予算に余裕のある企業
Claude Sonnet 4 🥈	Anthropic	プログラミングが超得意、安全で信頼性◎	💸 高い	プログラマー
Gemini 2.5 Pro 🥉	Google	超長文コンテキスト（200万Token）	💸 中程度	超大規模ドキュメントを扱う人

🇨🇳 国産モデル

モデル	🏢 会社	✨ 得意分野	💰 価格	こんな人に
DeepSeek V4-Pro 🏆	深度求索	Agent最強、オープンソース、100万Token対応	🟢 非常に安い	AI開発者、ヘビーユーザー
DeepSeek V4-Flash ⚡	深度求索	最速、コスパ最強	🟢 破格の安さ	日常使いの第一選択
Qwen3.6-Plus	アリババ	中文が最高、超長文コンテキスト	🟢 安い	中文向けシーン
GLM-5	智譜AI	MITライセンスでオープンソース、独自デプロイ可能	🟢 無料／安い	自前で構築したい人
Kimi K2.5	月之暗面	コードが得意、長文に強い	🟢 安い	プログラミング＋長文ドキュメント

💰 価格比較（おすすめ度）

DeepSeek V4-Flash  🟩🟩🟩🟩🟩  破格の安さ  月額数百円
DeepSeek V4-Pro    🟩🟩🟩🟩⬜  安い        月額数千円
GPT-5              🟩🟩⬜⬜⬜  高い        月額数万円
Claude Sonnet 4    🟩🟩⬜⬜⬜  高い        月額数万円

🎯 一般ユーザーへのアドバイス：日常使いなら DeepSeek V4-Flash で十分、速くて安い。コーディングや複雑なタスクは DeepSeek V4-Pro に切り替えましょう。国産モデルの価格は海外トップモデルの約100分の1——つまりAIは「高級品」から「日用品」になったのです。

✍️ プロンプトエンジニアリング：AIを思い通りに動かす方法

プロンプト（Prompt） = AIに対してあなたが入力する言葉。良いプロンプトがあれば、AIの回答品質が10倍になります。

📐 黄金のフォーマット

🎭 [役割] + 📋 [タスク] + 📂 [コンテキスト] + 📝 [出力形式] + ⚠️ [制約条件]

6つの実践テクニック

① 🎭 AIに役割を与える

❌ 「メールを書いて」
✅ 「あなたは10年の経験を持つビジネス交渉のプロです。サプライヤーに値下げ5％を
    要請するメールを作成してください。口調はプロフェッショナルかつ丁寧に。」

② 📚 例を示す（Few-Shot）

AIに2〜3個の例を見せると、それに習って答えられるようになります：

「以下のコメントの感情分析をしてください：
"この料理、まずすぎる" → ネガティブ
"景色が本当に綺麗" → ポジティブ
"まあまあかな、普通" → ニュートラル
ではこの文を分析してください："間違いなく人生で一番美味しいケーキ！" → 」

③ 🧩 ステップバイステップで考えさせる（Chain-of-Thought）

❌ 「太郎くんはリンゴを5個持っていました。花子さんに2個あげて、さらに3個買いました。
     今何個持っていますか？」

✅ 「ステップごとに考えてみましょう：
   1️⃣ 最初に5個のリンゴを持っている
   2️⃣ 花子さんに2個あげた：5 − 2 = 3
   3️⃣ さらに3個買った：3 + 3 = 6
   答えは6個です。」

④ 📊 出力形式を指定する

「以下のデータを分析し、JSON形式で出力してください：
   {"平均点": 85, "最高点": 98, "最低点": 62}」

⑤ ⛔ AIにやってはいけないことを伝える（否定プロンプト）

「100文字以内で要約してください。「まず／次に／最後に」のような接続詞は使わないでください。個人的な評価は加えないでください。」

⑥ 🔄 反復して掘り下げる

まずアウトラインをもらう → 特定のポイントを展開 → さらに詳細を深掘り
「気候変動に関する記事のアウトラインを作成してください」
「3つ目のポイントを詳しく説明してください」
「1つ目と3つ目のポイントのデータを表で比較してください」

⚠️ 初心者がやりがちなミス

❌ 間違い	✅ 正しいやり方
「コード書いて」	「PythonでREST APIを書いて。エンドポイントは3つ：ログイン、登録、情報取得」
一度に10個の要件を全部言う	ステップごとに、ひとつずつ明確に伝える
1時間前の会話をAIが覚えていると思い込む	重要な情報は繰り返し伝える
「適当でいいよ」と言う	どんなスタイル、長さ、トーンが欲しいかを伝える

🔮 2026年のAIトレンド

🚀 トレンド1：AI Agentの本格普及

AIが「会話」から「行動」へ進化。企業の40％が2026年にAI Agentの導入を計画しています。ちょうどスマートフォンが従来の携帯電話に取って代わったように——電話ができるからではなく、あらゆる問題を解決できるからです。

🇨🇳 トレンド2：中国製AIの全面的な台頭

DeepSeek、Qwen、GLMなどの国産モデルが性能面で海外モデルに追いつき、価格は100分の1。OpenRouterにおける中国製モデルの世界シェアはすでに30％に達しています。

🎤 トレンド3：音声AIの新体験

AIがリアルタイムで会話し、声色や感情を理解できるように。音声対話がAIの新しい入口になりつつあります——2007年のiPhoneのタッチスクリーンのように、すべてを変えるかもしれません。

📈 トレンド4：AI利用量の爆発的増加

世界のAI消費量は2024年から2025年にかけて10倍に増加しました。1回の簡単な会話＝数百Token、1つのAI Agentがタスクを完了する＝数十万Token。AIは「たまに使うもの」から「毎日使うもの」へと変わりつつあります。

🔄 AI進化のロードマップ

2022 🗣️  対話AI    質問すれば答える     → ChatGPT
2024 🧠  推論AI    深く考える         → DeepSeek R1
2025 🛠️  ツールAI  ツールを使う       → Copilot
2026 🤖  Agent時代  自律的に行動する   → Hermes Agent