おめでとうございます。皆さんに新しい職種が増えました：エージェント監査人。
AgentFlowという論文の最も面白いところは、また新しいワークフローフレームワークを発明したのではなく、エージェントプログラムを新しいソフトウェアサプライチェーンとして図示したことです。
以前、コードを審査する際は主に関数Aが関数Bを呼び出していることを見ていました。
今は見るべきパスがより厄介です：
ユーザー入力がどのプロンプトに入ったか；
プロンプトがどのエージェントに影響を与えるか；
エージェントは誰に引き継げるか；
共有メモリが汚いコンテキストを持ち越さないか；
最後にどのツールがファイル書き込み、メール送信、コマンド実行をできるか。
これが、論文で言うAgent Dependency Graphです。
私は最近ますますこのことを理解できるようになりました。Codex、Claude、Cursorを複数開くこと自体には意味がなく、本当に管理すべきは各ワーカーの権限境界と書き戻しパスです：
何を読めるか；
何を書けるか；
何を呼び出せるか；
公開、デプロイ、ウォレット、本番環境に遭遇した場合、アクセス制限はどこにあるか；
終わった後に証拠はどこに書き戻すか。
そうでなければ、いわゆるマルチエージェントワークフローは、すぐにたくさんの忙しそうに見えるが、誰が何に触れたのか誰も知らない会話ウィンドウの山

原文表示

報酬
いいね
コメント
リポスト
共有

runesleo

06-30 10:39

最近、BTC L1の資産ツールを使っていて、ウォレットにはまだ解決されていない問題があると強く感じています。
それは単に「残高の表示が正確かどうか」という話ではありません。
本当に厄介なのは、1つのUTXOに複数の資産セマンティクスが重なっている可能性があることです。
例えば、BTCそのもの、inscription、Runes、Bitmap、Alkanes、さらには一部のアプリケーション独自の状態解釈までが、同じアウトプットに関連している可能性があります。
Bitcoin CoreはUTXOしか認識しません。
しかしユーザーが見ているのは「自分がどれだけの資産を持っているか」です。
ここには非常に危険な錯覚があります：
プラットフォームが認識した資産は、そのUTXO上のすべての資産セマンティクスと等しいわけではありません。
そのため、複数送信、集約、分割、マージといったツールにおいて、本当に難しいのはトランザクションを組み立てることではなく、署名を行う前に次の問いに答えることです：
今回は一体何を使うことになるのか？
私が理想的な解決策だと思うのは、ウォレットとマーケットの両方に、アセット認識型の事前フライト（asset-aware preflight）を追加することです：
1. 複数のインデクサーによるクロス認識
2. 複合資産UTXOの自動赤字表示
3. 高リスクアウトプットの

BTC0.18%

原文表示

報酬
いいね
コメント
リポスト
共有

runesleo

06-29 09:02

この「forecasting RL（予測強化学習）」に関する記事は面白い。
その仕組みは次のように理解できる：
過去の予測問題と実際の結果があるデータセットを使い、AIを当時の時点に戻す。
ただし、今日のインターネットに直接アクセスさせると答えを覗き見できてしまう。
そこで作者は「タイムマスク」環境を構築した：
検索は当時以前の資料に限定；
Webページは履歴スナップショットから読み込む；
金融・トレンドデータも当時に見えていた部分のみ提供。
そしてモデルに自ら資料を調べさせ、証拠を判断し、確率を出力させる。
実際の結果が明らかになった後、proper scoring rule（適切なスコアリングルール）で採点し、RLを使ってより良い予測プロセスを強化する。
最も興味深いのはここ：
訓練するのは答えの一文ではなく、予測の一連の行動全体だ：
何を調べるか、何を読むか、いつ止めるか、矛盾する証拠をどう扱うか、最終的にどの確率を出すか。
予測市場に適用するなら、最初のステップはAIに自動取引させることではないと思う。
まず「forecast diary（予測日記）」を残させるべきだ：
1. 当時の確率
2. 使用した証拠
3. 市場価格
4. 取引するかどうか
5. その後の結果
6. 誤りの原因分類
もしあるシステムが60%と言ったとき、長期的に本当に60%でなければ、それはまだ戦略で

原文表示

報酬
いいね
コメント
リポスト
共有

runesleo

06-25 00:41

Claude Code において最も危険な兆候の一つ：
Determining 6 分、高 effort、数百 token。
これは通常、モデルがコンテキストの泥沼にはまっていることを示す。その後、的外れな回答、古い記憶の混線、パスの幻覚、ツール出力の誤読が発生しやすくなる。
それが「考え終わる」のを待ってはいけない。
直接停止し、新しいセッションを開き、クリーンなコンテキストで再実行する。

原文表示

報酬
いいね
コメント
リポスト
共有

runesleo

06-24 13:39

知らないうちに市場予測戦略にどう取り組むか？私が毎日使っている愚かな方法を共有します。
まずは慌ててモデルや指標を研究しないでください。ランキングを開いて、毎日各カテゴリーのトップ数十名を引き出して保存します。1日だけを見るのではなく、1〜2週間積み重ねてください。
次に複数日間比較し、繰り返し出現するアドレスを抽出します。1日だけ上位に来たものは無視し、連続してランキングに載るものだけが本当に継続的に勝っているものであり、運ではありません。
なぜランキングのトップだけを見るのか？一度検証した結果、全期間で最も利益を出していたいくつかを抽出したところ、多くはすでに休眠していました。帳簿上で2千万ドル以上のアドレスも、最近30日間の毎日のランキングには一度も載っていません。お金は確かに稼いでいますが、人はすでにテーブルにいません。このようなやり方は今の状況には参考になりません。
継続的に活動しているアドレスを特定したら、そのアドレスが最近どの市場やどのペースで賭けているかを調べます。ここまで進めば、何を分解し何を学ぶべきかが見えてきます。
最初から複雑にしなくても、「ずっと勝ち続けている人を見る」ことから始めてください。
ランキングはここ 👉

原文表示

報酬
いいね
コメント
リポスト
共有

runesleo

06-24 11:08

今日は奇妙な問題を調査しました：最近 Opus 4.8 の使用感が「おかしい」と感じることが多く、応答の質が不安定で、時折私が尋ねていない内容に言及することがありました。
長時間調べた結果、問題は私自身にありました——私が書いた17個の Hook スクリプトがずっとモデルの会話コンテキストにゴミを詰め込んでいたのです。
Claude Code の Hook には2つの出力チャンネルがあります。一つはモデルが見えるもので、もう一つはあなたの端末だけが見えるものです。多くの人は Hook を書くときにこの違いに気づかず、デフォルトの出力方法はちょうど「モデルが見える」方になっています。
結果として：ツールを呼び出すたびに、Hook はモデルのコンテキストに全く必要のないリマインダーを詰め込んでしまいます。私の場合、1つの会話に対して280回も注入されており、その中のバグで「このセッションはすでに21810回ツール呼び出し済みだ」とモデルに誤認させていました。
モデルが馬鹿になったわけではなく、あなた自身が注入したノイズの中で苦しんでいるのです。
修正は一行だけです。Hook 内の echo "xxx" を echo "xxx" >&2 に変更し、「モデルが見える」から「端末だけが見える」に切り替えるのです。
もしカスタム Hook を書いていてモデルのパフォーマンスが悪化したと感じたら

原文表示

報酬
いいね
コメント
リポスト
共有

runesleo

06-12 04:56

ビットコインのレイヤー資産が複雑になり始めると、
一般ユーザーが最初に直面する問題は：
残高は一体誰を基準にするのか？
この2日間、Alkanes上でこの問題に直面した。
同じアドレスで、
Subfrost、ESPO、UniSat、idclub
見る残高や状態が異なることがある。
取引が完了したように見えるものもあれば、
リバートされたように見えるものもある。
残高が遅れて更新されることもある。
自分のAlkanesの取引を
txid / block / outpointに分解してみると、
本質的には同じ一連のUTXOが
異なるシステムによって異なる方法で解釈されていることに気づいた。
フロントエンドの残高はあくまでビューに過ぎない。
実際に照合するには、
最終的にはチェーン上のoutpointに戻る必要がある。
これは非常に重要なことだ。
ビットコインのレイヤーにもっと多くの資産、
AMM、Bond、LP、vault、marketplaceを載せるには、
インフラは資産の状態を明確に伝える必要がある。
一般ユーザーは少なくとも三つのことに答えられるべきだ：
私は一体何を所有しているのか？
今回の署名で何が使われるのか？
失敗した場合、資産はどこに戻るのか？
だから今はどのフロントエンドも「最も正確」とは考えない。
私の一時的なトラブルシューティングの順序は：
1. まずtxid

BTC0.18%

原文表示

報酬
いいね
コメント
リポスト
共有

runesleo

06-11 08:38

これはちょっと恥ずかしいですね、Opus 4.8に問題があります。
それから、もしFableを使ってタスクを進めると、いつも自動的に4.8に切り替わってしまいます。
くそっ、つらいです。
今はもう4.6だけを使うしかないのでしょうか？

原文表示

報酬
いいね
コメント
リポスト
共有

runesleo

06-10 07:15

Codex このクォータ表示はちょっと面白いですね。
こちらでは今週のクォータがすでに0％と表示されていますが、
現在の対話はまだ続けることができます。
結論を急がず、いくつかの仕組みが重なっている可能性があります：
短期ウィンドウのクォータはまだ有効
現在のセッションには余裕がある
ローカルツールの呼び出しは完全に同じプールを消費していない
UIのパーセンテージは切り捨てや遅延がある
リモートホストの状態も維持されている
こういった細かい点は、エージェント製品の実際の複雑さにかなり似ています：
ユーザーが見るのはチャットボックスですが、
背後にはクォータ、セッション、ツール、権限、ホストの状態が調整されている可能性があります。
今後AIツールを使うときは、システムの状態を見ることを学ぶ必要があるかもしれません、
UI上のその一つのパーセンテージだけに注目してはいけません。

原文表示

報酬
いいね
コメント
リポスト
共有

runesleo

06-10 02:50

共有一个解决 Codex 远程连接问题的经验分享：
スマートフォンの ChatGPT で Mac 上の Codex をリモート制御したいが、「デスクトップ版を待っています」と表示され、QRコードスキャンも反応しない。
最初はVPN、ノード、サブスクリプション設定の問題だと思い、韓国、日本、オランダを行き来してテストしたが、どうしても解決しなかった。
多くの時間をかけて再試行し、最後に自分のMacの Codex ログを確認したところ、Mac側のリモート登録がサーバーから403エラーを返していることに気付いた：
Multi-factor authentication required
つまり、スマホとPCのペアリング失敗だと思っていたが、実際にはデスクトップ側のアカウントが十分なレベルの MFA を完了していなかった。
Googleの二段階認証を有効にし、Codexに再ログインしたところ、認証レベルが上がり、ついに接続できた。
この種の問題は特に、スマホ、Mac、ChatGPT Web、Codex間で複数のアカウントを切り替えたり、サブスクリプション／ログイン／デバイス信頼状態を変更した直後に発生しやすい。
エージェント時代の個人運用はますますこうした状況に近づいている：表面上はネットワークの問題に見えるが、根本的にはアカウント、権限、デバイス信頼、OAuth、MFA、リモートホストの

原文表示