hbase列名過濾_hbase的過濾器有哪些

㈠ HBase是什麼呢，都有哪些特點呢

Hbase是一種NoSQL資料庫，這意味著它不像傳統的RDBMS資料庫那樣支持SQL作為查詢語言。Hbase是一種分布式存儲的資料庫，技術上來講，它更像是分布式存儲而不是分布式資料庫，它缺少很多RDBMS系統的特性，比如列類型，輔助索引，觸發器，和高級查詢語言等待

那Hbase有什麼特性呢？如下：

強讀寫一致，但是不是「最終一致性」的數據存儲，這使得它非常適合高速的計算聚合
自動分片，通過Region分散在集群中，當行數增長的時候，Region也會自動的切分和再分配
自動的故障轉移
Hadoop/HDFS集成，和HDFS開箱即用，不用太麻煩的銜接
豐富的「簡潔，高效」API，Thrift/REST API，Java API
塊緩存，布隆過濾器，可以高效的列查詢優化
操作管理，Hbase提供了內置的web界面來操作，還可以監控JMX指標

什麼時候用Hbase？

Hbase不適合解決所有的問題：

首先資料庫量要足夠多，如果有十億及百億行數據，那麼Hbase是一個很好的選項，如果只有幾百萬行甚至不到的數據量，RDBMS是一個很好的選擇。因為數據量小的話，真正能工作的機器量少，剩餘的機器都處於空閑的狀態
其次，如果你不需要輔助索引，靜態類型的列，事務等特性，一個已經用RDBMS的系統想要切換到Hbase，則需要重新設計系統。
最後，保證硬體資源足夠，每個HDFS集群在少於5個節點的時候，都不能表現的很好。因為HDFS默認的復制數量是3，再加上一個NameNode。

Hbase在單機環境也能運行，但是請在開發環境的時候使用。

內部應用

存儲業務數據:車輛GPS信息，司機點位信息，用戶操作信息，設備訪問信息。。。
存儲日誌數據:架構監控數據（登錄日誌，中間件訪問日誌，推送日誌，簡訊郵件發送記錄。。。），業務操作日誌信息
存儲業務附件：UDFS系統存儲圖像，視頻，文檔等附件信息

不過在公司使用的時候，一般不使用原生的Hbase API，使用原生的API會導致訪問不可監控，影響系統穩定性，以致於版本升級的不可控。

HFile

HFile是Hbase在HDFS中存儲數據的格式，它包含多層的索引，這樣在Hbase檢索數據的時候就不用完全的載入整個文件。索引的大小(keys的大小，數據量的大小)影響block的大小，在大數據集的情況下，block的大小設置為每個RegionServer 1GB也是常見的。

探討資料庫的數據存儲方式，其實就是探討數據如何在磁碟上進行有效的組織。因為我們通常以如何高效讀取和消費數據為目的，而不是數據存儲本身。

Hfile生成方式

起初，HFile中並沒有任何Block，數據還存在於MemStore中。

Flush發生時，創建HFile Writer，第一個空的Data Block出現，初始化後的Data Block中為Header部分預留了空間，Header部分用來存放一個Data Block的元數據信息。

而後，位於MemStore中的KeyValues被一個個append到位於內存中的第一個Data Block中：

註：如果配置了Data Block Encoding，則會在Append KeyValue的時候進行同步編碼，編碼後的數據不再是單純的KeyValue模式。Data Block Encoding是HBase為了降低KeyValue結構性膨脹而提供的內部編碼機制。

㈡簡述通過Apache+HBase+API進行表過濾器應用的理解

摘要過濾器是HBase為客戶端提供的一種高級API，是HBase的一種高級特性，它提供了非常強大的功能幫助用戶處理表中的數據。HBase中讀取數據的API主要是get()和scan()，它們都支持直接讀取數據和通過指定起始行健訪問數據的功能，可以通過添加限定條件如列族、列、時間戳等來限制查詢的數量，但是它們缺少一種細粒度的的篩選功能，比如基於正則表達式的篩選。由此誕生過濾器，Get類和Scan類都支持過濾器，通過方法setFilter(Filter filter)可以設置查詢時的過濾器。

㈢求教：怎樣用hbase過濾器實現，一個列多列值

HBase為篩選數據提供了一組過濾器，通過這個過濾器可以在HBase中的數據的多回個維度（行，列，數據版本答）上進行對數據的篩選操作，也就是說過濾器最終能夠篩選的數據能夠細化到具體的一個存儲單元格上（由行鍵，列明，時間戳定位）。

㈣ hbase shell 中有版本過濾器嗎

進入hbase shell console
$HBASE_HOME/bin/hbase shell
如果有kerberos認證，需要事先使用相應的keytab進行一下認證（使用kinit命令），認證成功之後再使用hbase shell進入可以使用whoami命令可查看當前用戶！

㈤ hbase的過濾器有哪些

HBase為篩選數據提供了一組過濾器，通過這個過濾器可以在中的數據的多個維度（行，列，數據版本）上進行對數據的篩選操作，也就是說過濾器最終能夠篩選的數據能夠細化到具體的一個存儲單元格上（由行鍵，列明，時間戳定位）。通常來說，通過行鍵，值來篩選數據的應用場景較多。

1. RowFilter：篩選出匹配的所有的行，對於這個過濾器的應用場景，是非常直觀的：使用BinaryComparator可以篩選出具有某個行鍵的行，或者通過改變比較運算符（下面的例子中是CompareFilter.CompareOp.EQUAL）來篩選出符合某一條件的多條數據，以下就是篩選出行鍵為row1的一行數據：

[java]view plain

Filterrf=newRowFilter(CompareFilter.CompareOp.EQUAL,newBinaryComparator(Bytes.toBytes("row1")));//OK篩選出匹配的所有的行

2.PrefixFilter：篩選出具有特定前綴的行鍵的數據。這個過濾器所實現的功能其實也可以由RowFilter結合RegexComparator來實現，不過這里提供了一種簡便的使用方法，以下過濾器就是篩選出行鍵以row為前綴的所有的行：

[java]view plain

Filterpf=newPrefixFilter(Bytes.toBytes("row"));//OK篩選匹配行鍵的前綴成功的行

3.KeyOnlyFilter：這個過濾器唯一的功能就是只返回每行的行鍵，值全部為空，這對於只關注於行鍵的應用場景來說非常合適，這樣忽略掉其值就可以減少傳遞到客戶端的數據量，能起到一定的優化作用：

[java]view plain

Filterkof=newKeyOnlyFilter();//OK返回所有的行，但值全是空

4.RandomRowFilter：從名字上就可以看出其大概的用法，本過濾器的作用就是按照一定的幾率（<=0會過濾掉所有的行，>=1會包含所有的行）來返回隨機的結果集，對於同樣的數據集，多次使用同一個RandomRowFilter會返回不通的結果集，對於需要隨機抽取一部分數據的應用場景，可以使用此過濾器：

[java]view plain

Filterrrf=newRandomRowFilter((float)0.8);//OK隨機選出一部分的行

5.InclusiveStopFilter：掃描的時候，我們可以設置一個開始行鍵和一個終止行鍵，默認情況下，這個行鍵的返回是前閉後開區間，即包含起始行，但不包含終止行，如果我們想要同時包含起始行和終止行，那麼我們可以使用此過濾器：

[java]view plain

Filterisf=newInclusiveStopFilter(Bytes.toBytes("row1"));//OK包含了掃描的上限在結果之內

6.FirstKeyOnlyFilter：如果你只想返回的結果集中只包含第一列的數據，那麼這個過濾器能夠滿足你的要求。它在找到每行的第一列之後會停止掃描，從而使掃描的性能也得到了一定的提升：

[java]view plain

Filterfkof=newFirstKeyOnlyFilter();//OK篩選出第一個每個第一個單元格

7.ColumnPrefixFilter：顧名思義，它是按照列名的前綴來篩選單元格的，如果我們想要對返回的列的前綴加以限制的話，可以使用這個過濾器：

[java]view plain

Filtercpf=newColumnPrefixFilter(Bytes.toBytes("qual1"));//OK篩選出前綴匹配的列

8.ValueFilter：按照具體的值來篩選單元格的過濾器，這會把一行中值不能滿足的單元格過濾掉，如下面的構造器，對於每一行的一個列，如果其對應的值不包含ROW2_QUAL1，那麼這個列就不會返回給客戶端：

[java]view plain

Filtervf=newValueFilter(CompareFilter.CompareOp.EQUAL,newSubstringComparator("ROW2_QUAL1"));//OK篩選某個（值的條件滿足的）特定的單元格

9.ColumnCountGetFilter：這個過濾器來返回每行最多返回多少列，並在遇到一行的列數超過我們所設置的限制值的時候，結束掃描操作：

[java]view plain

Filterccf=newColumnCountGetFilter(2);//OK如果突然發現一行中的列數超過設定的最大值時，整個掃描操作會停止

10.SingleColumnValueFilter：用一列的值決定這一行的數據是否被過濾。在它的具體對象上，可以調用setFilterIfMissing(true)或者setFilterIfMissing(false)，默認的值是false，其作用是，對於咱們要使用作為條件的列，如果這一列本身就不存在，那麼如果為true，這樣的行將會被過濾掉，如果為false，這樣的行會包含在結果集中。

[java]view plain

SingleColumnValueFilterscvf=newSingleColumnValueFilter(
Bytes.toBytes("colfam1"),
Bytes.toBytes("qual2"),
CompareFilter.CompareOp.NOT_EQUAL,
newSubstringComparator("BOGUS"));
scvf.setFilterIfMissing(false);
scvf.setLatestVersionOnly(true);//OK

11.：這個與10種的過濾器唯一的區別就是，作為篩選條件的列的不會包含在返回的結果中。

12.SkipFilter：這是一種附加過濾器，其與ValueFilter結合使用，如果發現一行中的某一列不符合條件，那麼整行就會被過濾掉：

[java]view plain

Filterskf=newSkipFilter(vf);//OK發現某一行中的一列需要過濾時，整個行就會被過濾掉

13.WhileMatchFilter：這個過濾器的應用場景也很簡單，如果你想要在遇到某種條件數據之前的數據時，就可以使用這個過濾器；當遇到不符合設定條件的數據的時候，整個掃描也就結束了：
Filterwmf=newWhileMatchFilter(rf);//OK類似於Pythonitertools中的takewhile

14.FilterList：用於綜合使用多個過濾器。其有兩種關系：FilterList.Operator.MUST_PASS_ONE和FilterList.Operator.MUST_PASS_ALL，默認的是FilterList.Operator.MUST_PASS_ALL，顧名思義，它們分別是AND和OR的關系，並且FilterList可以嵌套使用FilterList，使我們能夠表達更多的需求：
List<Filter>filters=newArrayList<Filter>();
filters.add(rf);
filters.add(vf);
FilterListfl=newFilterList(FilterList.Operator.MUST_PASS_ALL,filters);//OK綜合使用多個過濾器，AND和OR兩種關系

㈥ hbase 多條件查詢or 怎麼過濾掉不需要查的列

hbase的region是按行劃分，而非按列，如果你讀取指定一行的所有列數據，regionServer雖然無法保證你的所有數據都在一個HFile中，但是至少是在一個Region中。但是具體的HFile所在的hdfs的節點那就不是HBase關心的事了，因為HBase的存儲是依賴與hdfs，所以底層存儲讀取的事會由NameNode操心，NameNode會考慮就近原則，而提供最高效的數據讀取策略。
你的數據傳輸是必然，但是HBase不會計算，計算是發生在你將想要的數據獲取到之後再自行進行計算的。你讀取大量數據必然會有大量數據傳輸，HBase只是將提供了一種高效的數據讀取策略，盡量減小數據傳輸量

㈦ hbase中rowkey設置問題。

主鍵設計成：現有的主鍵+頻度+列，即h+1+hi，但是最好將每個都格式化成定長的字元串，當你需要取前5個記錄時使用過濾器取出前5條記錄即可。大體如此，具體細節可能還需要好好設計

㈧ hbase中怎麼用java來過濾欄位

hbase提供了ListFilter過濾Listfilters=newArraList();Filterf1=newRowFilter();Filterf2=newAualifierFilter(.);filters.add(f1);filters.add(f2);FilterListfilterList=newFilterList(filters);Scan

㈨ hbase在服務端過濾好還是在客戶端過濾好

進入hbase shell console $HBASE_HOME/bin/hbase shell 如果有kerberos認證，需要事先使用相應的keytab進行一下認證（使用kinit命令），認證成功之後再使用hbase shell進入可以使用whoami命令可查看當前用戶！

㈩ shell怎樣過濾掉hbase-site.xml文件中的注釋項

hbase接到命令後存下變化信息或者寫入失敗異常的拋出，默認情況下。執行寫入時會寫到兩個地方：預寫式日誌（write-ahead log,也稱hlog）和memstore,以保證數據持久化。memstore是內存里的寫入緩沖區。客戶端在寫的過程中不會與底層的hfile直接交互，當menstore寫滿時，會刷新到硬碟，生成一個新的hfile.hfile是hbase使用的底層存儲格式。menstore的大小由hbase-site.xml文件里的系統級屬性hbase.hregion.memstore.flush.size來定義。
hbase在讀操作上使用了lru緩存機制（blockcache），blockcache設計用來保存從hfile里讀入內存的頻繁訪問的數據，避免硬碟讀。每個列族都有自己的blockcache。blockcache中的block是hbase從硬碟完成一次讀取的數據單位。block是建立索引的最小數據單位，也是從硬碟讀取的最小數據單位。如果主要用於隨機查詢，小一點的block會好一些，但是會導致索引變大，消耗更多內存，如果主要執行順序掃描，大一點的block會好一些，block變大索引項變小，因此節省內存。
LRU是Least Recently Used 近期最少使用演算法。內存管理的一種頁面置換演算法，對於在內存中但又不用的數據塊（內存塊）叫做LRU，操作系統會根據哪些數據屬於LRU而將其移出內存而騰出空間來載入另外的數據。

導航:首頁 > 凈水問答 > hbase列名過濾

hbase列名過濾

與hbase列名過濾相關的資料